Skip to Content
Pythonデータサイエンスハンドブック 第2版 ―Jupyter、NumPy、pandas、Matplotlib、scikit-learnを使ったデータ分析、機械学習
book

Pythonデータサイエンスハンドブック 第2版 ―Jupyter、NumPy、pandas、Matplotlib、scikit-learnを使ったデータ分析、機械学習

by Jake VanderPlas, 菊池 彰
February 2024
Intermediate to advanced
576 pages
9h 17m
Japanese
O'Reilly Japan, Inc.
Content preview from Pythonデータサイエンスハンドブック 第2版 ―Jupyter、NumPy、pandas、Matplotlib、scikit-learnを使ったデータ分析、機械学習

はじめに

データサイエンスとは?

本書はPythonを使ってデータサイエンスを行うためのものですが、そもそもデータサイエンスとは何でしょうか。「データサイエンス」という言葉が身近になればなるほど、その定義は難しくなります。さまざまな批判により、さまざまな言葉が消えていきました。それらは無関係なレッテル(結局、データに関与しない科学)であったり、採用担当者の目を引く目的で履歴書に記載される単なるバズワードとして扱われていたものです。

こういった批判は、何か重要な点を見落としていると思われます。見せかけのブームであるとの批判もありますが、産業と学問を横断する多くの応用分野で重要性を増している、複数の学問分野にまたがるスキルの集合を最もよく表している言葉が、おそらくデータサイエンスです。複数の分野を横断している点が重要です。Drew Conwayが自らのブログで2010年に発表したデータサイエンス・ベン図(図P-1)が今のところ最も正確にデータサイエンスを定義していると筆者は考えます。

図P-1 Drew Conwayのデータサイエンス・ベン図(出典:Drew Conway(<a href="https://oreil.ly/PkOOw" class="link">https://oreil.ly/PkOOw</a>)、許可を得て掲載)

図: 図P-1 Drew Conwayのデータサイエンス・ベン図(出典:Drew Conway(https://oreil.ly/PkOOw)、許可を得て掲載)

図の交わるところには多少の皮肉も込められているようですが、データサイエンスに対して人々が思い浮かべる学際的な雰囲気をよく捉えていると思います。(日々増え続ける)データセットをモデル化し要約する統計学者のスキル、データを記憶、処理、可視化するコンピュータサイエンティストのスキル、さまざまな課題に対する「伝統的」な能力として、適切な疑問とそれに対する回答を構成するために必要な専門知識、これら重なり合う注目すべき3つの領域から構成されるのがデータサイエンスです。 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

Pythonデータサイエンスハンドブック ―Jupyter、NumPy、pandas、Matplotlib、scikit-learnを使ったデータ分析、機械学習

Pythonデータサイエンスハンドブック ―Jupyter、NumPy、pandas、Matplotlib、scikit-learnを使ったデータ分析、機械学習

Jake VanderPlas, 菊池 彰
推薦システム実践入門 ―仕事で使える導入ガイド

推薦システム実践入門 ―仕事で使える導入ガイド

風間 正弘, 飯塚 洸二郎, 松村 優也
プロダクトマネージャーのしごと 第2版 ―1日目から使える実践ガイド

プロダクトマネージャーのしごと 第2版 ―1日目から使える実践ガイド

Matt LeMay, 永瀬 美穂, 吉羽 龍太郎, 原田 騎郎, 高橋 一貴

Publisher Resources

ISBN: 9784814400638Publisher Website