5章推薦エンジンを作る
本章では次の事柄について学びます。
- 訓練パイプライン
- 最近傍点の抽出
- k-最近傍(NN)分類器
- 類似度の計算
- 協調フィルタを用いた類似ユーザーの検索
- 映画の推薦システムの作成
5.1 訓練パイプライン
機械学習システムは、さまざまなモジュールを組み合わせて作られることが多いです。ある順番でモジュールを組み合わせて目標を達成します。scikit-learn
ライブラリには、さまざまなモジュールを連結してパイプラインを形成できる関数があります。モジュールと対応するパラメータを指定するだけで済むのです。パイプラインを作れば、データを処理してシステムを訓練してくれます。
パイプラインは、特徴選択、前処理、ランダムフォレスト、クラスタリングなど、さまざまな機能を実行するモジュールを含むことができます。本節では、入力データ点から上位k個の特徴量を選択し、ERT分類器を使って分類するパイプラインの作り方を説明します。
Jupyter Notebookで、Python 3のタブを作り、最初のセルに次のように入力してください。
from sklearn.datasets import samples_generator from sklearn.feature_selection import SelectKBest, f_regression from sklearn.pipeline import Pipeline from sklearn.ensemble import ExtraTreesClassifier
訓練用と検証用に、適当なラベル付きデータを生成します。scikit-learn
パッケージには、データ生成関数が備わっています。次に示すように、25次元の特徴ベクトルで表されるデータを150個生成します。各データには6つの情報特徴量があり、重複する特徴量はありません。 ...
Get PythonによるAIプログラミング入門 ―ディープラーニングを始める前に身につけておくべき15の基礎技術 now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.