1
1 章
データサイエンスとは
計算の目的は数値ではなく洞察だ。
— リチャード・W・ハミング
データサイエンスとは何だろうか。新しい分野の常として、まだ完全な定義はないが、読者も興味を感じ
る程度にはデータサイエンスとは何かを知っているのだろう。そうでなければ、本書を読もうとは思わない
はずだ。
私は
、データサイエンスとは、計算機科学、統計学、さまざまな応用分野の学際的な位置にあるものの
ことだと考えている。計算機科学からは、機械学習と大規模データを扱うためのハイパフォーマンスコン
ピューティングテクノロジーを、統計学からは、伝統のある探索的データ分析、有意性検定、ビジュアライ
ゼーションを、ビジネス、科学の応用分野からは、挑戦する価値のある課題とその課題を十分に克服できた
かどうかを評価するための基準を得ている。
しかし、これらはいずれも確立された分野だ。なぜデータサイエンスなのか、そしてなぜ今なのか。私
は、データサイエンスが突然活発に研究されるようになった理由は 3 つあると考えている。
• 新しいテクノロジーによって膨大な量のソーシャルメディア、ログ、センサーによりデータの捕捉が
でき、加工して、格納することが可能になった。膨大なデータを蓄積できたことで、このデータで何
ができるかを考え始めている。
• 計算能力の発達により、新しい方法でデータを分析できるようになり、処理できるデータの規模は今
も拡大し続けている。クラウドコンピューティングにより、一個人であっても、必要なときには膨大
な計算能力を駆使できるようになった。機械学習に対する新しいアプローチにより、コンピュータビ
ジョンや自然言語処理など、長年の懸案になっていた問題において、目を見張るような進歩が起きて
いる。
• 有名な IT 企業(Google ...