12章Pythonにおけるモデリングライブラリ入門
この本では、Pythonにおけるデータ分析を行うための基盤となるプログラミング技法に着目してきました。データ分析者や科学者はデータラングリング*1に多大な時間を費やすことが多いため、この本の構造は、そのために使う技術を習得する重要さを反映した構造になっています。
*1 訳注:ラングル(wrangle)とは、家畜の世話をする、といった意味があります。データラングリングとは、データを取得した後、分析のために下準備をするような行為をまとめて言う場合によく使われます。
モデルを開発するために使うライブラリは、何に応用するかによって変わるものです。多くの統計的な問題は、最小二乗法を使った回帰のような単純な手法で解決できますが、より高度な機械学習を要求するような問題も存在します。Pythonは分析手法を実装するための言語として素晴らしい選択肢になりましたので、この本を読み終えた後に手を出すと良さそうな多くのツールが存在します。
この章では、データラングリングとモデルの最適化や評価との間を行き来するような場合に役立つpandasの機能をいくつか紹介します。その後、人気のある2つのモデリングツールであるstatsmodels(https://www.statsmodels.org)とscikit-learn(https://scikit-learn.org)を簡単に紹介します。これらのプロジェクトはそれぞれ1冊の本を書けるほど巨大なものなので、それらを包括的に説明することはやめておきます。その代わり、それらのプロジェクトのオンラインドキュメントやその他のPythonに関連する統計学や機械学習の本などを案内することにします。
Get Pythonによるデータ分析入門 第3版 ―pandas、NumPy、Jupyterを使ったデータ処理 now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.