2章統計的推論、探索的データ分析、データサイエンスのプロセス

この章では、まず統計的推論と統計的思考について考察することから始めます。次に、データサイエンティストがデータを入手したときにまずしなければならないこと、探索的データ分析(Exploratory data analysis:EDA)について解説します。

その後、私たちがデータサイエンスのプロセスをどのように定義しているかについてもう少し詳細な解説を進めます。この章の最後には、思考実験とケーススタディを紹介します。

2.1 ビッグデータ時代の統計的思考

ビッグデータという言葉は漠然とした用語で、最近よく使用されるもののその意味は曖昧だ。しかし、この多様な概念を含む用語は、簡単に言えば次の3つのことを意味している。1つ目に、一連の技術を指す。2つ目に、(データの量と多様性の増加によってもたらされる)測定における革命の可能性である。そして3つ目には、将来の意思決定がどのように行われるか、または行われるべきかということについての視点や指針を提供するものとしてのビッグデータを意味する。

――スティーブ・ローア、ニューヨークタイムズ、2013年6月

データサイエンティストとしてのスキルセットを習得しようとする場合、初めにある程度の基礎として必要になるのは、統計、線形代数、プログラミングのスキルです。このスキルを習得した後には、いくつかのスキルセットを並行して習得しなければなりません。それは、データの準備とマンジング(munging)†1、モデリング、コーディング、可視化、そしてコミュニケーションといったスキルセットであり、これらのスキルは互いに独立ではありません。この本を読み進むにつれて、これらの糸は撚り合わされていきます。とはいえ、学ぶときにはそれらのどこかからスタートする必要がありますので、ここでは統計的推論の基礎から始めることにします。 ...

Get データサイエンス講義 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.