5章モデルの評価と改良
ここまでで、教師あり学習と教師なし学習の基本を学び、さまざまな機械学習アルゴリズムを見てきた。次は、モデルの評価とパラメータの選択について詳しく見ていこう。
ここでは、回帰とクラス分類の教師あり学習に焦点を当てる。教師なし学習での評価やモデルの選択は、(「3章 教師なし学習と前処理」でも見たように)定性的になってしまうからだ。
これまで、教師あり学習モデルを評価するには、train_test_split
関数を使ってデータセットを訓練セットとテストセットに分割し、訓練セットに対してfit
メソッドを呼び出してモデルを構築し、テストセットに対してscore
メソッドを呼び出して評価してきた。score
メソッドはクラス分類に関しては正しくクラス分類されたサンプルの割合を計算する。このプロセスの例を見てみよう。
from sklearn.datasets import make_blobs from sklearn.linear_model import LogisticRegression from sklearn.model_selection import train_test_split # 合成データセットの生成 X, y = make_blobs(random_state=0) # dataトラベルを訓練セットとテストセットに分割 X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0) # モデルをインスタンシエイトし、訓練データで学習 logreg = LogisticRegression().fit(X_train, y_train) # テストセットでモデルを評価 ...
Get Pythonではじめる機械学習 ―scikit-learnで学ぶ特徴量エンジニアリングと機械学習の基礎 now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.