5章推薦エンジンを作る

本章では次の事柄について学びます。

  • 訓練パイプライン
  • 最近傍点の抽出
  • k-最近傍(NN)分類器
  • 類似度の計算
  • 協調フィルタを用いた類似ユーザーの検索
  • 映画の推薦システムの作成

5.1 訓練パイプライン

機械学習システムは、さまざまなモジュールを組み合わせて作られることが多いです。ある順番でモジュールを組み合わせて目標を達成します。scikit-learnライブラリには、さまざまなモジュールを連結してパイプラインを形成できる関数があります。モジュールと対応するパラメータを指定するだけで済むのです。パイプラインを作れば、データを処理してシステムを訓練してくれます。

パイプラインは、特徴選択、前処理、ランダムフォレスト、クラスタリングなど、さまざまな機能を実行するモジュールを含むことができます。本節では、入力データ点から上位k個の特徴量を選択し、ERT分類器を使って分類するパイプラインの作り方を説明します。

Jupyter Notebookで、Python 3のタブを作り、最初のセルに次のように入力してください。

from sklearn.datasets import samples_generator
from sklearn.feature_selection import SelectKBest, f_regression
from sklearn.pipeline import Pipeline
from sklearn.ensemble import ExtraTreesClassifier

訓練用と検証用に、適当なラベル付きデータを生成します。scikit-learnパッケージには、データ生成関数が備わっています。次に示すように、25次元の特徴ベクトルで表されるデータを150個生成します。各データには6つの情報特徴量があり、重複する特徴量はありません。 ...

Get PythonによるAIプログラミング入門 ―ディープラーニングを始める前に身につけておくべき15の基礎技術 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.