March 2019
Intermediate to advanced
424 pages
5h 18m
Japanese
本章では次の事柄について学びます。
機械学習システムは、さまざまなモジュールを組み合わせて作られることが多いです。ある順番でモジュールを組み合わせて目標を達成します。scikit-learnライブラリには、さまざまなモジュールを連結してパイプラインを形成できる関数があります。モジュールと対応するパラメータを指定するだけで済むのです。パイプラインを作れば、データを処理してシステムを訓練してくれます。
パイプラインは、特徴選択、前処理、ランダムフォレスト、クラスタリングなど、さまざまな機能を実行するモジュールを含むことができます。本節では、入力データ点から上位k個の特徴量を選択し、ERT分類器を使って分類するパイプラインの作り方を説明します。
Jupyter Notebookで、Python 3のタブを作り、最初のセルに次のように入力してください。
from sklearn.datasets import samples_generator from sklearn.feature_selection import SelectKBest, f_regression from sklearn.pipeline import Pipeline from sklearn.ensemble import ExtraTreesClassifier
訓練用と検証用に、適当なラベル付きデータを生成します。scikit-learnパッケージには、データ生成関数が備わっています。次に示すように、25次元の特徴ベクトルで表されるデータを150個生成します。各データには6つの情報特徴量があり、重複する特徴量はありません。 ...
Read now
Unlock full access