
2 1 章 データサイエンスとは
か、従
来のプログラマやソフトウェア開発者の考え方とはどう違うかを説明する。第 2 に、何のために使
えるかという潜在能力の観点からデータを見て、答えが出せる問題を幅広く見つけていくことを学ぶ。第 3
に、本書全体を通じてモチベーションを上げる実例として、データ分析のさまざまな問題を紹介する。
1.1 計算機科学、データサイエンス、リアルサイエンス
計算機科学者は、データを尊重しないように教えられている。伝統的に、アルゴリズムが重要であり、
データはソーセージ製造機を通り過ぎていく肉にすぎないと彼らは教わっているのだ。
だから、優秀なデータサイエンティストになろうと思うなら、まずリアルサイエンティスト
*
1と同じよう
に考えることを身に付けなければならない。リアルサイエンティストは、複雑で乱雑に散らかっている自然
界を理解するために全力を傾ける。それに対し、計算機科学者は簡潔で整頓された仮想世界を築き、その中
で快適に過ごそうとする傾向がある。リアルサイエンティストが発見に夢中になるのに対し、計算機科学者
は発見よりも発明に夢中になる。
人のマインドセットは思考と行動の様式を強く規定し、別の世界の人々とコミュニケーションしようとす
るときの誤解の原因になる。こういったバイアス(偏り)は非常に根深いため、人は自分にそのようなもの
があることに気付かないことが多い。計算機科学とリアルサイエンスの文化的な違いの例としては次のよう
なものが挙げられる。
• データ中心か方法中心か:データサイエンティストはデータ、計算機科学者はアルゴリズムによって ...