39章ハイパーパラメータとモデルの検証
前の章では、教師あり機械学習モデルを適用するための基本手順を学びました。
- モデルのクラスを選択
- モデルのハイパーパラメータを選択
- モデルに学習用データを当てはめ
- モデルを使用して新しいデータのラベルを予測
最初の2つは、モデルの選択とハイパーパラメータの選択であり、機械学習の機能を効果的に使用する上で最も重要な部分です。選択を適切に行うには、データに対してモデルとハイパーパラメータが適していることを検証する方法が必要です。単純に聞こえるかもしれませんが、効果的に行うには避けなければならない落とし穴があります。
39.1 モデル検証に関する考察
理論上、モデルの検証は非常に簡単です。モデルとそのハイパーパラメータを選択した後、そのモデルにいくつかの学習用データを適用し、予測値を真の値と比較することで、その効果を測定できます。
この節では、ホールドアウト検証や交差検証などの堅牢なモデル検証方法を使用する前に単純なアプローチを試し、それがなぜ失敗するのか、その理由を示します。
39.1.1 誤ったモデル検証方法
最初にアイリスデータを使用した単純な検証方法を説明します。まずデータの読み込みを行います。
In [1]: from sklearn.datasets import load_iris iris = load_iris() X = iris.data y = iris.target
次に、モデルとハイパーパラメータを選択します。ここでは、n_neighbors = 1
のk近傍法分類器を使用します。これは、「未知データのラベルは、最も近い学習用データのラベルと同じである」という非常に単純で直感的なモデルです。
In [2]: from ...
Get Pythonデータサイエンスハンドブック 第2版 ―Jupyter、NumPy、pandas、Matplotlib、scikit-learnを使ったデータ分析、機械学習 now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.