Skip to Content
Pythonではじめる機械学習 ―scikit-learnで学ぶ特徴量エンジニアリングと機械学習の基礎
book

Pythonではじめる機械学習 ―scikit-learnで学ぶ特徴量エンジニアリングと機械学習の基礎

by Andreas C. Muller, Sarah Guido, 中田 秀基
May 2017
Intermediate to advanced
392 pages
6h 14m
Japanese
O'Reilly Japan, Inc.
Content preview from Pythonではじめる機械学習 ―scikit-learnで学ぶ特徴量エンジニアリングと機械学習の基礎

4章データの表現と特徴量エンジニアリング

これまでは、データが2次元の浮動小数点数配列として得られることを仮定していた。この配列のそれぞれの列はデータポイントを表す連続値特徴量(continuous feature)だ。しかし、このような形でデータが得られないアプリケーションも多い。特に一般的な特徴量の種類として、カテゴリ特徴量(categorical feature)がある。これは離散値特徴量(discrete feature)とも呼ばれ、一般に数値ではない。カテゴリ特徴量と連続値特徴量の違いは、クラス分類と回帰の違いに似ているが、出力側ではなく入力側である。連続値特徴量の例としては、ピクセルの明るさ、花の大きさを測定した値などがある。カテゴリ特徴量の例としては、製品のブランドや色、販売されている部門(書籍、衣料、金物)などがある。これらはすべて製品を表現する特性であるが、連続的に変化するものではない。ある製品は衣料部門か書籍部門のどちらかに所属する。衣料と書籍の間などというものはないし、部門間に自然な順番はない(書籍は衣料より大きくも小さくもないし、金物がこの2つの間だということもない)。

データを構成する特徴量のタイプによらず、特徴量の表現は機械学習モデルの性能に多大な影響を及ぼす。「2章 教師あり学習」と「3章 教師なし学習と前処理」で、データのスケールが重要であることを説明した。データを(例えば分散を1に)スケール変換しないと、センチで測定したか、インチで測定したかによってデータ表現が変わってしまう。また、「2章 教師あり学習」では、特徴量の相互作用(積)やもっと一般的な多項式を追加して特徴量を強化(augment)するとよいことも学んだ。

特定のアプリケーションに対して、最良のデータ表現を模索することを、 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

機械学習システムデザイン ―実運用レベルのアプリケーションを実現する継続的反復プロセス

機械学習システムデザイン ―実運用レベルのアプリケーションを実現する継続的反復プロセス

Chip Huyen, 江川 崇, 平山 順一
詳説 イーサネット 第2版

詳説 イーサネット 第2版

Charles E. Spurgeon, Joann Zimmerman, 三浦 史光, 豊沢 聡
仕事ではじめる機械学習 第2版

仕事ではじめる機械学習 第2版

有賀 康顕, 中山 心太, 西林 孝

Publisher Resources

ISBN: 9784873117980Other