38章scikit-learnの基礎

各種のPythonライブラリが、さまざまな機械学習アルゴリズムの実績ある実装を提供しています。最もよく知られているのは、多数のアルゴリズムを効率的に実装するscikit-learnパッケージ(https://scikit-learn.org/)です。scikit-learnは、効率的で整然と統一されたAPIだけでなく、有益かつ完全なドキュメントを整備している点にも特徴があります。この統一性により、あるモデルでscikit-learnの基本的な使用方法と構文を理解したなら、別のモデルやアルゴリズムへ容易に応用できます。

この章ではscikit-learn APIの概要を説明します。APIの構成要素を確実に把握することで、機械学習のアルゴリズムとアプローチに関する実践的な議論のための基礎が身につきます。

最初にscikit-learnのデータ表現を説明します。続いて推定器(Estimator)APIを説明し、最後にこれらの機能を使用した興味深い事例として、手書き数字の画像認識を紹介します。

38.1 scikit-learnのデータ表現

機械学習とは、データからのモデル作成であるとも言えます。そのため、まずデータをどのように表現するかを考えます。scikit-learnのデータを把握する最も良い方法は、データをとして捉えることです。

基本的な表は2次元の格子状データです。行はデータセット個々の要素を表し、列は各要素それぞれに関連する量を表します。例として、27章で使用したアイリスデータセット(https://oreil.ly/TeWYs)を考えます。これは1936年にRonald Fisherにより分析され有名になりました。seabornライブラリ( ...

Get Pythonデータサイエンスハンドブック 第2版 ―Jupyter、NumPy、pandas、Matplotlib、scikit-learnを使ったデータ分析、機械学習 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.