【大阪 / 横浜】インフラ / サーバーサイドエンジニア募集中！

【25卒向け】AI×バーチャル面接の募集を開始いたしました！

【導入実績 500社以上】AWS 構築・運用保守・監視サービス

【CentOS 後継】AlmaLinux OS サーバー構築・移行サービス

【WordPress 専用】クラウドサーバー『ウェブスピード』

【格安】Webサイトセキュリティ自動診断「クイックスキャナー」

【低コスト】Wasabi オブジェクトストレージ構築・運用サービス

【予約システム開発】EDISONE カスタマイズ開発サービス

【100URLの登録が0円】Webサイト監視サービス『Appmill』

【中国現地企業に対応】中国クラウド / サーバー構築・運用保守

【YouTube】ビヨンド公式チャンネル「びよまるチャンネル」

Mechanizeが動かないよ～！そんな時はBeautiful Soupでハッピーハッピー☆

2016.02.17

1 Beautiful Soupとは
2 必要なライブラリの用意
3 Mechanizeで拾ったHTMLソースをBeautiful Soupで解析する方法
4 Beautiful Soupのパーサーエンジンを切り替える
5 Beautiful Soupで解析したHTMLをMechanizeに戻してクロールを続ける

こんにちは。
開発チームのワイルド担当、萬代です。

今回は、Pythonでクローリングする際によく利用されるMechanizeと、HTMLを解析するためのライブラリ、Beautiful Soupを使ってハッピースクレイピング！という趣旨で進めていきたいと思います。
Beautiful Soup自体がMechanizeの問題を解決するものではありませんので、タイトルは多少盛ってありますが悪しからず。

Beautiful Soupとは

Beautiful Soupは、HT(X)MLパーサー機能を提供するPythonライブラリです。
パーサー機能だけを提供するものなので、Mechanize単品でどうにかなる部分もあるのですが
Mechanizeでは解析できないHTMLも解析できるといったところがBeautiful Soupの良さでしょうか。

今回は、Beautiful SoupとMechanizeをうまく使って、Mechanizeでは解析できないHTMLを
Beautiful Soupでバッサバッサとやっつける方法について考えてみます。

今回は、Python2.7系を使って進めていきます。

必要なライブラリの用意

pipを使って必要なライブラリを入手します。

pip install mechanize beautifulsoup4
# 必要に応じてsudoしてください
# beautifulsoup とするとBeautiful Soup3系がインストールされてしまうので注意
# ちなみに私の環境では、だいたいどこも3と4が同居している状態です

Mechanizeで拾ったHTMLソースをBeautiful Soupで解析する方法

Mechanizeで取得したHTMLをBeautiful Soupに取り込んで解析するのは、とても簡単です。

br.open('https://beyondjapan.com')
soup = BeautifulSoup(br.response().read())

上記のコマンドで、https://beyondjapan.comからHTMLを取得し、Beautiful Soupによる解析が完了したオブジェクトがsoupの中に入ります。

Beautiful Soupのパーサーエンジンを切り替える

Beautiful Soupでは、解析に使うパーサーエンジンを状況に応じて切り替えて使う事ができます。
Beautiful Soupの公式ページには、lxmlを使うのを、速度面からおすすめしているようです。
今回はlxmlを使って解析していきますので、lxmlライブラリをpipを使ってインストールします。

pip install lxml
# 必要に応じてsudoしてください

コード内でBeautiful Soupを呼び出す時にパーサーエンジンの指定を行う訳ですが
何も指定しない場合は、Python標準のHTMLパーサーを使用するようです。
標準エラーに何やらエラーが出ますので、気になる方は標準パーサーを使う場合でも
パーサーエンジンの指定はした方がよいかと思います。

# パーサーを指定せずに実行した場合
soup = BeautifulSoup(br.response().read())

問題なくパースできますが、以下のようなエラーが表示されます

/usr/local/lib/python2.7/site-packages/bs4/__init__.py:166: UserWarning: No parser was explicitly specified, so I'm using the best available HTML parser for this system ("lxml"). This usually isn't a problem, but if you run this code on another system, or in a different virtual environment, it may use a different parser and behave differently.

To get rid of this warning, change this:

 BeautifulSoup([your markup])

to this:

 BeautifulSoup([your markup], "lxml")

  markup_type=markup_type))

lxml を指定してHTMLを解析するには、以下のように指定します。

soup = BeautifulSoup(br.response().read(), "lxml")

Beautiful Soupで解析したHTMLをMechanizeに戻してクロールを続ける

Mechanizeで解析できなかったHTMLをBeautiful Soupで解析したはいいけれど
パースした結果を元に更に先のページへ遷移したということはよくあるかと思います。

例えば、フォームでデータ送信したい場合、よくわからないけれど、以下の箇所で
パースエラーがでて困る、なんて事はよくある話です。

br.select_form(nr=0)

Traceback (most recent call last):
  File "/home/vagrant/workspace/mechanize_test/test3.py", line 13, in <module>
    br.select_form(nr=0)
  File "/usr/local/lib/python2.7/site-packages/mechanize/_mechanize.py", line 499, in select_form
    global_form = self._factory.global_form
  File "/usr/local/lib/python2.7/site-packages/mechanize/_html.py", line 544, in __getattr__
    self.forms()
  File "/usr/local/lib/python2.7/site-packages/mechanize/_html.py", line 557, in forms
    self._forms_factory.forms())
  File "/usr/local/lib/python2.7/site-packages/mechanize/_html.py", line 237, in forms
    _urlunparse=_rfc3986.urlunsplit,
  File "/usr/local/lib/python2.7/site-packages/mechanize/_form.py", line 844, in ParseResponseEx
    _urlunparse=_urlunparse,
  File "/usr/local/lib/python2.7/site-packages/mechanize/_form.py", line 981, in _ParseFileEx
    fp.feed(data)
  File "/usr/local/lib/python2.7/site-packages/mechanize/_form.py", line 758, in feed
    _sgmllib_copy.SGMLParser.feed(self, data)
  File "/usr/local/lib/python2.7/site-packages/mechanize/_sgmllib_copy.py", line 110, in feed
    self.goahead(0)
  File "/usr/local/lib/python2.7/site-packages/mechanize/_sgmllib_copy.py", line 144, in goahead
    k = self.parse_starttag(i)
  File "/usr/local/lib/python2.7/site-packages/mechanize/_sgmllib_copy.py", line 302, in parse_starttag
    self.finish_starttag(tag, attrs)
  File "/usr/local/lib/python2.7/site-packages/mechanize/_sgmllib_copy.py", line 347, in finish_starttag
    self.handle_starttag(tag, method, attrs)
  File "/usr/local/lib/python2.7/site-packages/mechanize/_sgmllib_copy.py", line 387, in handle_starttag
    method(attrs)
  File "/usr/local/lib/python2.7/site-packages/mechanize/_form.py", line 735, in do_option
    _AbstractFormParser._start_option(self, attrs)
  File "/usr/local/lib/python2.7/site-packages/mechanize/_form.py", line 480, in _start_option
    raise ParseError("OPTION outside of SELECT")
mechanize._form.ParseError: OPTION outside of SELECT

こういう場合、大抵パースできず、諦めて他の方法を探すという事になってしまうので
一旦、Beautiful Soupに解析させて、必要なフォームだけを抜き出して加工し、Mechanizeに戻してやると、しれっと先へ進めます。
(OPTION outside of SELECTというエラー自体は、selectタグの外にoptionタグがあるよ（もしくはselectタグにoptionタグがないよ）的なエラーのようです)

今回は、selectタグ内にoptionタグがなかったので、Beautiful Soupでoptionタグを追加した上で、Mechanizeに戻してみます。

# Beautiful SoupでHTMLを解析
soup = BeautifulSoup(br.response().read(), 'lxml')

# formタグ部分を抽出
f = soup.find('form')

# 追加したいHTMLタグのBeautiful Soupオブジェクトを生成
o = BeautifulSoup('<option value="hogehoge" selected>fugafuga</option>', 'lxml')

# optionタグ部分の抽出
option = o.option

# form内のselectタグに対して、optionタグを追加
f.find(id='target_select').append(option)

# Mechanizeのレスポンスオブジェクトを作成して、Mechanizeに登録
response = mechanize.make_response(str(f), [("Content-Type", "text/html")], br.geturl(), 200, "OK")
br.set_response(response)

# Mechanizeでformを指定してみる
br.select_form(nr=0)

mechanize.make_response() と set_response() でMechanizeにBeautiful Soupで解析したHTMLを戻す事ができると書いてある日本語のサイトが見つからず四苦八苦しましたが、こちらのサイトを参考に、何とか解決できました。

Form Handling With Mechanize And Beautifulsoup · Todd Hayton

英語のサイトですが、他にも主にMechanizeの使い方について詳しく載っていて、色々と勉強になります。

以上です。

この記事がお役に立てば【いいね】のご協力をお願いいたします！

読み込み中...