book

Pythonデータサイエンスハンドブック ―Jupyter、NumPy、pandas、Matplotlib、scikit-learnを使ったデータ分析、機械学習

by Jake VanderPlas, 菊池彰

May 2018

Intermediate to advanced

556 pages

13h 21m

Japanese

O'Reilly Japan, Inc.

Read now

Unlock full access

Content preview from Pythonデータサイエンスハンドブック ―Jupyter、NumPy、pandas、Matplotlib、scikit-learnを使ったデータ分析、機械学習

422

章機械学習

しかし、

SVM

にもいくつかの欠点があります。

●

サンプル数

の場合、最悪では

[

]

、効率的な実装では

[

]

の計算量が必要になりま

す。多数の学習サンプルを使用する場合、計算コストが非常に高くなる可能性があります。

●

結果は、ソフトマージンのパラメータ

の選択に強く影響を受けます。この値は交差検証を

用いて慎重に選択する必要があります。そのためデータセットのサイズが大きくなるにつれ

て、計算量も膨大になる可能性があります。

●

結果は、直接的な確率的解釈を持ちません。これは、内部交差検証（

SVC

の

probability

パ

ラメータを参照）によって推定できますが、この推定にはコストがかかります。

これらの特性が念頭にあったため、チューニングを必要としないような高速な別の手法が不十分

であったために

SVM

が必要となったことは筆者の経験上一度しかありませんでした。学習と交差

検証のための

CPU

リソースが十

分に利用できるのであれば、この手法は優れた結果をもたらしま

す。

5.8

詳細：決定木とランダムフォレスト

これまで、単純な生成分類器（ナイーブベイズ、「5.5 詳細：ナイーブベイズ分類」を参照）と、

強力な識別分類器（サポートベクターマシン、「5.7 詳細：サポートベクターマシン」を参照）に

ついて学びました。ここでは、別の強力なアルゴリズム、つまりランダムフォレストと呼ばれる

ノンパラメトリック

＊

なアルゴリズムについて学びます。ランダムフォレストはアンサンブル法

（

ensemble ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Start your free trial

Pythonデータサイエンスハンドブック第2版 ―Jupyter、NumPy、pandas、Matplotlib、scikit-learnを使ったデータ分析、機械学習

Jake VanderPlas, 菊池彰

Pythonではじめる機械学習 ―scikit-learnで学ぶ特徴量エンジニアリングと機械学習の基礎

Andreas C. Muller, Sarah Guido, 中田秀基

PythonによるAIプログラミング入門 ―ディープラーニングを始める前に身につけておくべき15の基礎技術

Prateek Joshi, 相川愛三

初めてのGraphQL ―Webサービスを作って学ぶ新世代API

Eve Porcello, Alex Banks, 尾崎沙耶, あんどうやすし

Publisher Resources

ISBN: 9784873118413Other