vii
はじめに
我々の周囲の世界を理解するためには、周りにあるデータを手に入れ、分析しなければならない。最近で
は、複数の技術的潮流がぶつかり合い、今まで以上に大きな課題にデータ分析の知識を活用するチャンスが
生まれている。
コン
ピュータの記憶装置の容量は指数的に大きくなっている。実際、補助記憶装置の価格は大幅に下が
り、コンピュータシステムにものを忘れさせることは、ほぼ不可能になった。センサーは、動画ストリー
ム、ソーシャルメディアにおけるやり取り、動くものの位置など、観察できるあらゆるものを監視するよう
になってきている。クラウドコンピューティングは、データの操作のために膨大な数のマシンの力を動員で
きるようにした。実際、あなたが Google 検索を行うたびに、数百台のコンピュータが動員され、あなたに
次に案内する最良の広告を選ぶために、あなたの過去のあらゆる行動を精査している。
このような変化の結果、膨大な量の情報から最大限の価値を引き出すための新しい学問分野、データサイ
エンス(data science)が生まれた。学問分野としてのデータサイエンスは、統計学、計算機科学、機械学習
が交わるところに位置するが、独自の特徴と影響力を持ちつつある。本書はデータサイエンスの入門書で、
データを収集、分析、解釈するためのシステムを構築するために必要なスキルと原則に重点を置いている。
研究者、教育者としての私の経験から、データサイエンスで特に難しいのは、細かく注意しなければなら
ない部分が見かけよりもずっと多いところだと考えている。単純な散布図を描いただけで履歴書にデータの
可視化の経験があると書くのと同じように、自分の成績(Grade Point Average:GPA)を計算したことのあ
る学生は誰でも初歩的な統計計算を行ったことになる。しかし、データをきちんと分析し、解釈するために ...