
5.4
特徴量エンジニアリング
377
グリッドサーチには、カスタムスコア関数の指定、計算の並列化、ランダムサーチなど多くの
オプションが用意されています。詳細については、「5.13 詳細:カーネル密度推定」および「5.14
応用:顔検出パイプライン」の例を参照するか、
scikit-learn
グリッドサーチのマニュアル(
http://
scikit-learn.org/stable/modules/grid_search.html
)を参照してください。
図5-34 グリッドサーチを用いて求めた最良モデル
5.3.5
まとめ
この節では、バイアスとバリアンスのトレードオフを直観的に確認した後、モデルをデータに当
てはめる際の検証方法とハイパーパラメータ最適化の考え方を学びました。特に、パラメータを
チューニングする際には、複雑で柔軟なモデルが過剰適合することを避けるために、検証セットを
使うこと、もしくは交差検証の考え方を使うことが不可欠であることを学びました
後の節では、有用なモデルの詳細について説明します。そのモデルではどのようなチューニング
が利用できるのか、そのパラメータがモデルの複雑さにどのように影響するかについても併せて説
明します。この節で得た知識を忘れず、個々の機械学習アプローチの理解に役立ててください。
5.4
特徴量エンジニアリング
前の節では、機械学習の基本的な考え方について概説しましたが、すべての例では整然とした
[n
サンプル、
n
特徴
]
形式の数値データがあるものと想定していました。現実の世界では、ほ ...