はじめに

データサイエンスとは?

本書はPythonを使ってデータサイエンスを行うためのものですが、そもそもデータサイエンスとは何でしょうか。「データサイエンス」という言葉が身近になればなるほど、その定義は難しくなります。さまざまな批判により、さまざまな言葉が消えていきました。それらは無関係なレッテル(結局、データに関与しない科学)であったり、採用担当者の目を引く目的で履歴書に記載される単なるバズワードとして扱われていたものです。

こういった批判は、何か重要な点を見落としていると思われます。見せかけのブームであるとの批判もありますが、産業と学問を横断する多くの応用分野で重要性を増している、複数の学問分野にまたがるスキルの集合を最もよく表している言葉が、おそらくデータサイエンスです。複数の分野を横断している点が重要です。Drew Conwayが自らのブログで2010年に発表したデータサイエンス・ベン図(図P-1)が今のところ最も正確にデータサイエンスを定義していると筆者は考えます。

図P-1 Drew Conwayのデータサイエンス・ベン図(出典:Drew Conway(<a href="https://oreil.ly/PkOOw" class="link">https://oreil.ly/PkOOw</a>)、許可を得て掲載)

図: 図P-1 Drew Conwayのデータサイエンス・ベン図(出典:Drew Conway(https://oreil.ly/PkOOw)、許可を得て掲載)

図の交わるところには多少の皮肉も込められているようですが、データサイエンスに対して人々が思い浮かべる学際的な雰囲気をよく捉えていると思います。(日々増え続ける)データセットをモデル化し要約する統計学者のスキル、データを記憶、処理、可視化するコンピュータサイエンティストのスキル、さまざまな課題に対する「伝統的」な能力として、適切な疑問とそれに対する回答を構成するために必要な専門知識、これら重なり合う注目すべき3つの領域から構成されるのがデータサイエンスです。 ...

Get Pythonデータサイエンスハンドブック 第2版 ―Jupyter、NumPy、pandas、Matplotlib、scikit-learnを使ったデータ分析、機械学習 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.