Skip to Content
Pythonではじめる機械学習 ―scikit-learnで学ぶ特徴量エンジニアリングと機械学習の基礎
book

Pythonではじめる機械学習 ―scikit-learnで学ぶ特徴量エンジニアリングと機械学習の基礎

by Andreas C. Muller, Sarah Guido, 中田 秀基
May 2017
Intermediate to advanced
392 pages
6h 14m
Japanese
O'Reilly Japan, Inc.
Content preview from Pythonではじめる機械学習 ―scikit-learnで学ぶ特徴量エンジニアリングと機械学習の基礎

6章アルゴリズムチェーンとパイプライン

4章 データの表現と特徴量エンジニアリング」で述べたように、多くの機械学習アルゴリズムにおいて、データの表現は非常に重要だ。データの表現は、データのスケール変換から、手で特徴量を組み合わせたり、教師なし学習で特徴量を学習することまで、多岐にわたる。したがって、多くの機械学習アプリケーションでは、1つのアルゴリズムを実行するだけでなく、さまざまな処理と複数の機械学習アルゴリズムを連鎖的に実行する必要がある。本章ではPipelineクラスを用いて、データ変換とモデル実行のチェーンの構築を簡単に行う方法を述べる。特に、Pipelineと、GridSearchCVを用いてすべての処理ステップを一度に行う方法を見ていく。

モデルチェーンの重要性を示す例として、cancerデータセットを見ていこう。このデータセットでは、前処理にMinMaxScalerを使うことで、カーネル法を用いたSVMの性能を著しく向上することができた。下に、データを分割して最大値と最小値を求め、データのスケール変換を行い、SVMを訓練するコードを示す。

In[1]:

from sklearn.svm import SVC from sklearn.datasets import load_breast_cancer from sklearn.model_selection import train_test_split from sklearn.preprocessing import MinMaxScaler # データをロードして分割 cancer = load_breast_cancer() X_train, X_test, y_train, y_test = train_test_split( ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

機械学習システムデザイン ―実運用レベルのアプリケーションを実現する継続的反復プロセス

機械学習システムデザイン ―実運用レベルのアプリケーションを実現する継続的反復プロセス

Chip Huyen, 江川 崇, 平山 順一
詳説 イーサネット 第2版

詳説 イーサネット 第2版

Charles E. Spurgeon, Joann Zimmerman, 三浦 史光, 豊沢 聡
仕事ではじめる機械学習 第2版

仕事ではじめる機械学習 第2版

有賀 康顕, 中山 心太, 西林 孝

Publisher Resources

ISBN: 9784873117980Other