Skip to Content
Pythonデータサイエンスハンドブック 第2版 ―Jupyter、NumPy、pandas、Matplotlib、scikit-learnを使ったデータ分析、機械学習
book

Pythonデータサイエンスハンドブック 第2版 ―Jupyter、NumPy、pandas、Matplotlib、scikit-learnを使ったデータ分析、機械学習

by Jake VanderPlas, 菊池 彰
February 2024
Intermediate to advanced
576 pages
9h 17m
Japanese
O'Reilly Japan, Inc.
Content preview from Pythonデータサイエンスハンドブック 第2版 ―Jupyter、NumPy、pandas、Matplotlib、scikit-learnを使ったデータ分析、機械学習

39章ハイパーパラメータとモデルの検証

前の章では、教師あり機械学習モデルを適用するための基本手順を学びました。

  1. モデルのクラスを選択
  2. モデルのハイパーパラメータを選択
  3. モデルに学習用データを当てはめ
  4. モデルを使用して新しいデータのラベルを予測

最初の2つは、モデルの選択とハイパーパラメータの選択であり、機械学習の機能を効果的に使用する上で最も重要な部分です。選択を適切に行うには、データに対してモデルとハイパーパラメータが適していることを検証する方法が必要です。単純に聞こえるかもしれませんが、効果的に行うには避けなければならない落とし穴があります。

39.1 モデル検証に関する考察

理論上、モデルの検証は非常に簡単です。モデルとそのハイパーパラメータを選択した後、そのモデルにいくつかの学習用データを適用し、予測値を真の値と比較することで、その効果を測定できます。

この節では、ホールドアウト検証や交差検証などの堅牢なモデル検証方法を使用する前に単純なアプローチを試し、それがなぜ失敗するのか、その理由を示します。

39.1.1 誤ったモデル検証方法

最初にアイリスデータを使用した単純な検証方法を説明します。まずデータの読み込みを行います。

In [1]: from sklearn.datasets import load_iris
        iris = load_iris()
        X = iris.data
        y = iris.target

次に、モデルとハイパーパラメータを選択します。ここでは、n_neighbors = 1のk近傍法分類器を使用します。これは、「未知データのラベルは、最も近い学習用データのラベルと同じである」という非常に単純で直感的なモデルです。

In [2]: from ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

Pythonデータサイエンスハンドブック ―Jupyter、NumPy、pandas、Matplotlib、scikit-learnを使ったデータ分析、機械学習

Pythonデータサイエンスハンドブック ―Jupyter、NumPy、pandas、Matplotlib、scikit-learnを使ったデータ分析、機械学習

Jake VanderPlas, 菊池 彰
推薦システム実践入門 ―仕事で使える導入ガイド

推薦システム実践入門 ―仕事で使える導入ガイド

風間 正弘, 飯塚 洸二郎, 松村 優也
プロダクトマネージャーのしごと 第2版 ―1日目から使える実践ガイド

プロダクトマネージャーのしごと 第2版 ―1日目から使える実践ガイド

Matt LeMay, 永瀬 美穂, 吉羽 龍太郎, 原田 騎郎, 高橋 一貴

Publisher Resources

ISBN: 9784814400638Publisher Website