February 2024
Intermediate to advanced
576 pages
9h 17m
Japanese
前の章では、教師あり機械学習モデルを適用するための基本手順を学びました。
最初の2つは、モデルの選択とハイパーパラメータの選択であり、機械学習の機能を効果的に使用する上で最も重要な部分です。選択を適切に行うには、データに対してモデルとハイパーパラメータが適していることを検証する方法が必要です。単純に聞こえるかもしれませんが、効果的に行うには避けなければならない落とし穴があります。
理論上、モデルの検証は非常に簡単です。モデルとそのハイパーパラメータを選択した後、そのモデルにいくつかの学習用データを適用し、予測値を真の値と比較することで、その効果を測定できます。
この節では、ホールドアウト検証や交差検証などの堅牢なモデル検証方法を使用する前に単純なアプローチを試し、それがなぜ失敗するのか、その理由を示します。
最初にアイリスデータを使用した単純な検証方法を説明します。まずデータの読み込みを行います。
In [1]: from sklearn.datasets import load_iris
iris = load_iris()
X = iris.data
y = iris.target
次に、モデルとハイパーパラメータを選択します。ここでは、n_neighbors = 1のk近傍法分類器を使用します。これは、「未知データのラベルは、最も近い学習用データのラベルと同じである」という非常に単純で直感的なモデルです。
In [2]: from ...