
62 3 章 データマンジング
は、3.5 節で詳しく取り上げる。
Wikipedia
、Freebase、IMDb などのすばらしいデータリソースの多くは、コントリビューターたちによっ
て作られてきた。しかし、覚えておかなければならない大切なポイントが 1 つある。一般に、人間は報酬を
もらった方が良い仕事をするということだ。
3.2.2 スクレイピング
ウェブページには、触ってみたいと思うような価値のあるテキスト、数値データがよく含まれている。例
えば、ハイアライというスポーツの勝敗を予想するギャンブルシステムの構築というプロジェクトでは、前
日の試合結果と当日の試合予定のデータを必要とした。我々の解決策は、ハイアライの賭けを扱うウェブ
サイトをスクレイピングすることだった。このサイトはファンのためにこれらの情報を掲載していたので
ある。
これを実現するためには、スパイダリングとスクレイピングの 2 つのステップが必要になる。
• スパイダリング:分析のために使う正しいページ群をダウンロードするプロセス
• スクレイピング:各ページからコンテンツを抽出し、コンピュータで分析するための準備をする細か
い作業
まず最初に認識すべきは、ウェブページが HTML や JavaScript といったわかりやすい言語で書かれてい
ることである。これらの言語で書かれたウェブページのテキストは、表示内容を指定するプログラムとして
ブラウザに解釈される。ブラウザをエミュレートしたり、ブラウザのふりをしてブラウザ関数を呼び出す ...