Skip to Content
Pythonデータサイエンスハンドブック ―Jupyter、NumPy、pandas、Matplotlib、scikit-learnを使ったデータ分析、機械学習
book

Pythonデータサイエンスハンドブック ―Jupyter、NumPy、pandas、Matplotlib、scikit-learnを使ったデータ分析、機械学習

by Jake VanderPlas, 菊池 彰
May 2018
Intermediate to advanced
556 pages
13h 21m
Japanese
O'Reilly Japan, Inc.
Content preview from Pythonデータサイエンスハンドブック ―Jupyter、NumPy、pandas、Matplotlib、scikit-learnを使ったデータ分析、機械学習
376
5
章 機械学習
加します(破線で示しています)が、モデルのバリアンスが高くなります(学習と検証の差)。さら
に多くのデータポイントを追加すると、より複雑なモデルの学習曲線でも最終的には収束します。
モデルとデータセットの学習曲線をプロットすることで、分析を向上させるにはどのように進め
れば良いのかを決断する際の有益な情報が得られます。
5.3.4
 検証の実践:グリッドサーチ
前述の説明では、バイアスとバリアンス間のトレードオフ、それらに関連するモデルの複雑さと
学習セットの量についての感覚的な理解を促しました。実際のモデルには変化させる対象が複数存
在するため、検証曲線と学習曲線は線ではなく多次元の面になります。このような場合、可視化は
困難であることから、検証スコアを最大化する特定のモデルを探す方がずっと簡単です。
scikit-learn
は、
model_selection
モジュールでこれを行うための自動化ツールを提供します。こ
こでは、グリッドサーチを使用して最適な多項式モデルを見つける例を示します。
3
次元の特徴、
つまり多項式の次数、切片に合わせるかどうかを示すフラグ、および問題を正規化するかどうかを
示すフラグからなるグリッドを
scikit-learn
GridSearchCV
メタ推定器に与えます。
In[18]: from sklearn.model_selection import GridSearchCV
 
param_grid = {'polynomialfeatures__degree': ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

Pythonデータサイエンスハンドブック 第2版 ―Jupyter、NumPy、pandas、Matplotlib、scikit-learnを使ったデータ分析、機械学習

Pythonデータサイエンスハンドブック 第2版 ―Jupyter、NumPy、pandas、Matplotlib、scikit-learnを使ったデータ分析、機械学習

Jake VanderPlas, 菊池 彰
初めてのGraphQL ―Webサービスを作って学ぶ新世代API

初めてのGraphQL ―Webサービスを作って学ぶ新世代API

Eve Porcello, Alex Banks, 尾崎 沙耶, あんどうやすし

Publisher Resources

ISBN: 9784873118413Other