はじめに
コンピュータープログラミングは、そのスキルを習得していない人にとっては魔法のように思えるのではないでしょうか。プログラミングが魔法なら、Webスクレイピングは、魔法を使って、偉大で有用な手柄を、しかも驚くほど楽々と達成するテクニックとなります。
私の技術者としてのキャリアの中で、Webスクレイピングほど、プログラマーやプログラマー以外の人の興味をそそる技術に出会ったことがありません。データを収集し端末にストリーミングして、データベースに保存するような単純なボットを書くことは難しくありません。しかし、そのような作業をこれまでに何度も行っていたとしても、必ずある種のスリルと可能性を感じさせてくれます。
残念ながら、一般のプログラマーにWebスクレイピングの話をすると、その実態について多くの誤解や混乱が見受けられます。それが適法なのか疑う人や†1、どのように今のWebのJavaScriptやマルチメディアやクッキーなどを扱うのかと疑問に思う人もいます。APIとWebスクレイピングとの区別がつかなくて混乱する人もいるでしょう。本書は、Webスクレイピングに関するこの種の疑問や誤解に終止符を打つとともに、最も一般的なWebスクレイピングについて万全のガイドとなるものです。
[†1] 訳注:スクレイピング自体に違法性はないが、サイトによる。
Webスクレイピングはさまざまな方向に急速に進化し続けている分野なので、読者の皆さんが携わるであろうデータ収集作業に関連する、高度な概念や具体的な事例をできるだけ多く取り上げるようにしました。本書では、実際にこれらの概念を試せるようにサンプルコードを用意しています。特に許可を得なくてもサンプルコードを使い、自由に変更していただいて構いません。もちろん出典を記載していただくのは大歓迎です。サンプルコードは、GitHubの ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access