
376
5
章 機械学習
加します(破線で示しています)が、モデルのバリアンスが高くなります(学習と検証の差)。さら
に多くのデータポイントを追加すると、より複雑なモデルの学習曲線でも最終的には収束します。
モデルとデータセットの学習曲線をプロットすることで、分析を向上させるにはどのように進め
れば良いのかを決断する際の有益な情報が得られます。
5.3.4
検証の実践:グリッドサーチ
前述の説明では、バイアスとバリアンス間のトレードオフ、それらに関連するモデルの複雑さと
学習セットの量についての感覚的な理解を促しました。実際のモデルには変化させる対象が複数存
在するため、検証曲線と学習曲線は線ではなく多次元の面になります。このような場合、可視化は
困難であることから、検証スコアを最大化する特定のモデルを探す方がずっと簡単です。
scikit-learn
は、
model_selection
モジュールでこれを行うための自動化ツールを提供します。こ
こでは、グリッドサーチを使用して最適な多項式モデルを見つける例を示します。
3
次元の特徴、
つまり多項式の次数、切片に合わせるかどうかを示すフラグ、および問題を正規化するかどうかを
示すフラグからなるグリッドを
scikit-learn
の
GridSearchCV
メタ推定器に与えます。
In[18]: from sklearn.model_selection import GridSearchCV
param_grid = {'polynomialfeatures__degree': ...