まえがき

コンピュータプログラミングは、そのスキルを習得していない人にとっては、マジックみたいに見えるのではないでしょうか。プログラミングがマジックなら、Webスクレイピングは、魔法、すなわちマジックを使って、かくも偉大で有用な手柄を、しかも驚くほど楽々と達成するテクニックとなります。

実際、ソフトウェア技術者としての私は、Webスクレイピングほどに、プログラマにも普通の人にも、興奮を与えるプログラミング技術にはほとんど出会ったことがありません。データを集める簡単なボットを書いて、端末からそれを外へ流し出したり、データベースに格納することは、難しいことではないのに、何度も行っているのに関わらず、必ずある種のスリルと可能性への感覚に襲われるのです。

残念ながら、一般のプログラマにWebスクレイピングの話をすると、その実態について多くの誤解や混乱が見られます。それが適法なのか(適法です。18章参照)疑う人や、どのようにいまのWebのJavaScriptやマルチメディアやクッキーなどを扱うのかと疑問に思う人もいます。APIとWebスクレイピングとの区別がつかなくて混乱する人までいます。本書は、Webスクレイピングに関するこの種の疑問や誤解に終止符を打つとともに、最も一般的なWebスクレイピングについて万全のガイドとなるものです。

Webスクレイピングは、さまざまな方向に急速に進化し続けている分野ですから、読者の皆さんが携わるだろうと思われるデータ収集作業に関わる高水準の概念と具体的な例をできるだけ取り上げるようにしました。本書では、読者の皆さんが実際にこれらの概念を試せるようにコード例を用意してあります。特に許可を得なくてもコード例を使い、自由に変更していただいて構いません。もちろん出典を記載していただくのは大歓迎です。コード例は、GitHubの ...

Get PythonによるWebスクレイピング 第2版 now with O’Reilly online learning.

O’Reilly members experience live online training, plus books, videos, and digital content from 200+ publishers.