4章スクレイパーの開発
Webスクレイピングを始めると、ブラウザが行う細かいことすべてに感心するようになります。HTMLフォーマット、CSSでのスタイリング、JavaScriptの実行、画像レンダリングなどの機能がなかったとすれば、最初はとてもわかりにくいもののように思えるでしょう。この章ではWebブラウザの力を借りず、この剥き出しのデータをどのようにフォーマットし、解釈するかを見ていきます。
この章では、Webページから必要な情報を取り出すために、WebサーバーにGETリクエストを送信し、取得したページのHTMLを解析、必要な部分のみを抽出するといった基本から始めます。
4.1 Jupyterを使う
ここに掲載したコードはhttps://github.com/REMitchell/python-scrapingにあります。ほとんどのサンプルコードは、拡張子が.ipynbのJupyter Notebook形式となっています。
Jupyter Notebookは、互いに関連するPythonの小さなコード片を実行し、整理していくのに優れています(図4-1を参照)。
各コードは「セル」と呼ばれるボックスに入っています。各セル内のコードは、[Shift]+[Enter]を入力するか、ページ上部にある実行ボタンをクリックすることで実行できます。
Project Jupyterは、2014年にIPython(Interactive Python)プロジェクトからスピンオフして始まりました。Jupyter Notebookは、Webブラウザ上でPythonのコードを実行するために設計されており、アクセスしやすくインタラクティブな環境を提供しています。そのため、教育やプレゼンテーションに適しています。 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access