book

Pythonデータサイエンスハンドブック ―Jupyter、NumPy、pandas、Matplotlib、scikit-learnを使ったデータ分析、機械学習

by Jake VanderPlas, 菊池彰

May 2018

Intermediate to advanced

556 pages

13h 21m

Japanese

O'Reilly Japan, Inc.

Read now

Unlock full access

Content preview from Pythonデータサイエンスハンドブック ―Jupyter、NumPy、pandas、Matplotlib、scikit-learnを使ったデータ分析、機械学習

5.4

特徴量エンジニアリング

377

グリッドサーチには、カスタムスコア関数の指定、計算の並列化、ランダムサーチなど多くの

オプションが用意されています。詳細については、「5.13 詳細：カーネル密度推定」および「5.14

応用：顔検出パイプライン」の例を参照するか、

scikit-learn

グリッドサーチのマニュアル（

http://

scikit-learn.org/stable/modules/grid_search.html

）を参照してください。

図5-34　グリッドサーチを用いて求めた最良モデル

5.3.5

まとめ

この節では、バイアスとバリアンスのトレードオフを直観的に確認した後、モデルをデータに当

てはめる際の検証方法とハイパーパラメータ最適化の考え方を学びました。特に、パラメータを

チューニングする際には、複雑で柔軟なモデルが過剰適合することを避けるために、検証セットを

使うこと、もしくは交差検証の考え方を使うことが不可欠であることを学びました

後の節では、有用なモデルの詳細について説明します。そのモデルではどのようなチューニング

が利用できるのか、そのパラメータがモデルの複雑さにどのように影響するかについても併せて説

明します。この節で得た知識を忘れず、個々の機械学習アプローチの理解に役立ててください。

5.4

特徴量エンジニアリング

前の節では、機械学習の基本的な考え方について概説しましたが、すべての例では整然とした

サンプル、

特徴

]

形式の数値データがあるものと想定していました。現実の世界では、ほ ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Start your free trial

Pythonデータサイエンスハンドブック第2版 ―Jupyter、NumPy、pandas、Matplotlib、scikit-learnを使ったデータ分析、機械学習

Jake VanderPlas, 菊池彰

Pythonではじめる機械学習 ―scikit-learnで学ぶ特徴量エンジニアリングと機械学習の基礎

Andreas C. Muller, Sarah Guido, 中田秀基

PythonによるAIプログラミング入門 ―ディープラーニングを始める前に身につけておくべき15の基礎技術

Prateek Joshi, 相川愛三

初めてのGraphQL ―Webサービスを作って学ぶ新世代API

Eve Porcello, Alex Banks, 尾崎沙耶, あんどうやすし

Publisher Resources

ISBN: 9784873118413Other