7章文書を読む

インターネットを基本的にはテキスト基盤Webサイトであって、Webスクレイピングでは無視される流行りのWeb2.0マルチメディアコンテンツが散りばめられた集まりと考えるのはそれなりに納得できるものです。しかし、これはコンテンツがわからないファイル転送の入れ物というインターネットの最も本質的なところを無視しています。

インターネットは、1960年代後半から何らかの形で存在していましたが、HTMLは1992年にようやく登場しました。それまでは、インターネットはメールとファイル転送でした。私たちが今日知っているWebページという概念は存在しませんでした。言い換えると、インターネットは、HTMLファイルの集まりではありません。HTMLファイルが表示のためによく使われている、情報の集まりです。テキスト、PDF、画像、ビデオ、メールなどをはじめ、さまざまな文書形式を読むことができなければ、入手可能なデータの巨大な部分を見失います。

本章では、ローカルフォルダにダウンロードしたり、読んでデータを抽出したりすることも含めて、文書を扱います。各種のテキストの文字エンコーディングを、外国語のHTMLページを読む可能性も含めて扱います。

7.1 文書エンコーディング

文書エンコーディングは、コンピュータのオペレーティングシステムやPythonのコードも含めて、アプリケーションがどのようにファイルを読むかを示します。エンコーディングは普通、ファイル拡張子から推測できますが、拡張子はエンコーディングで必須とはみなされていません。例えば、myImage.jpgをmyImage.txtとして保存しても問題ありません。少なくとも、テキストエディタが開こうとするまでは。実際このような状況は稀です。正しく読むにはファイル拡張子がわかっていれば通常は十分でしょう。 ...

Get PythonによるWebスクレイピング 第2版 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.