6章データを格納する

端末に出力するのは面白いですが、データ集約や分析という点ではあまり役立ちません。Webスクレイパーが役立つためには、スクレイピングした情報をどこかに格納する必要があります。

本章では、ほぼすべてのアプリケーションで役立つデータ管理の方法を3つ見ていきます。Webサイトのバックエンドに力を入れたり、自分のAPIを作る必要があるなら、スクレイパーでデータベースに書き込むとよいでしょう。インターネットから文書を収集して、自分のハードドライブに置いておく高速で容易な方法が必要なら、ファイルストリームを作るとよいでしょう。時々警告が要ったり、毎日データ集約をしたいなら、メールを自分に送りましょう。

Webスクレイピングにおいて、また、それ以外でも、大量のデータを格納して処理する能力は、現在のどんなプログラミングアプリケーションでも信じがたいほど重要です。実際、本章での情報は、本書の後の節で多くの例題を実装するのに必要となります。自動データストレージに詳しい人は別にして、読者の皆さんは本章の内容を理解しておく必要があります。

6.1 メディアファイル

メディアファイルの格納には、参照によるか、ファイルそのものをダウンロードするか、2通りの方法があります。参照によるファイル格納は、ファイルのURLを格納するだけです。次のような利点があります。

  • ファイルをダウンロードする必要がないので、スクレイピングがはるかに高速で帯域幅も少ない。
  • URLだけ格納するので、自分のマシンのスペースが節約できる。
  • URLを格納するだけで、追加のファイルダウンロードがないので、簡単にコードが書ける。
  • 大きなファイルダウンロードがないので、ホストサーバの負荷が軽減される。

次のような欠点もあります。 ...

Get PythonによるWebスクレイピング 第2版 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.