6章データを格納する
端末に出力するのは面白いですが、データ集約や分析という点ではあまり役立ちません。Webスクレイパーが役立つためには、スクレイピングした情報をどこかに格納する必要があります。
本章では、ほぼすべてのアプリケーションで役立つデータ管理の方法を3つ見ていきます。Webサイトのバックエンドに力を入れたり、自分のAPIを作る必要があるなら、スクレイパーでデータベースに書き込むとよいでしょう。インターネットから文書を収集して、自分のハードドライブに置いておく高速で容易な方法が必要なら、ファイルストリームを作るとよいでしょう。時々警告が要ったり、毎日データ集約をしたいなら、メールを自分に送りましょう。
Webスクレイピングにおいて、また、それ以外でも、大量のデータを格納して処理する能力は、現在のどんなプログラミングアプリケーションでも信じがたいほど重要です。実際、本章での情報は、本書の後の節で多くの例題を実装するのに必要となります。自動データストレージに詳しい人は別にして、読者の皆さんは本章の内容を理解しておく必要があります。
6.1 メディアファイル
メディアファイルの格納には、参照によるか、ファイルそのものをダウンロードするか、2通りの方法があります。参照によるファイル格納は、ファイルのURLを格納するだけです。次のような利点があります。
- ファイルをダウンロードする必要がないので、スクレイピングがはるかに高速で帯域幅も少ない。
- URLだけ格納するので、自分のマシンのスペースが節約できる。
- URLを格納するだけで、追加のファイルダウンロードがないので、簡単にコードが書ける。
- 大きなファイルダウンロードがないので、ホストサーバの負荷が軽減される。
次のような欠点もあります。 ...
Get PythonによるWebスクレイピング 第2版 now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.