4章データの表現と特徴量エンジニアリング

これまでは、データが2次元の浮動小数点数配列として得られることを仮定していた。この配列のそれぞれの列はデータポイントを表す連続値特徴量（continuous feature）だ。しかし、このような形でデータが得られないアプリケーションも多い。特に一般的な特徴量の種類として、カテゴリ特徴量（categorical feature）がある。これは離散値特徴量（discrete feature）とも呼ばれ、一般に数値ではない。カテゴリ特徴量と連続値特徴量の違いは、クラス分類と回帰の違いに似ているが、出力側ではなく入力側である。連続値特徴量の例としては、ピクセルの明るさ、花の大きさを測定した値などがある。カテゴリ特徴量の例としては、製品のブランドや色、販売されている部門（書籍、衣料、金物）などがある。これらはすべて製品を表現する特性であるが、連続的に変化するものではない。ある製品は衣料部門か書籍部門のどちらかに所属する。衣料と書籍の間などというものはないし、部門間に自然な順番はない（書籍は衣料より大きくも小さくもないし、金物がこの2つの間だということもない）。

データを構成する特徴量のタイプによらず、特徴量の表現は機械学習モデルの性能に多大な影響を及ぼす。「2章　教師あり学習」と「3章　教師なし学習と前処理」で、データのスケールが重要であることを説明した。データを（例えば分散を1に）スケール変換しないと、センチで測定したか、インチで測定したかによってデータ表現が変わってしまう。また、「2章　教師あり学習」では、特徴量の相互作用（積）やもっと一般的な多項式を追加して特徴量を強化（augment）するとよいことも学んだ。

特定のアプリケーションに対して、最良のデータ表現を模索することを、 ...

Get Pythonではじめる機械学習 ―scikit-learnで学ぶ特徴量エンジニアリングと機械学習の基礎 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.

Start your free trial

Pythonではじめる機械学習 ―scikit-learnで学ぶ特徴量エンジニアリングと機械学習の基礎 by Andreas C. Muller, Sarah Guido, 中田秀基

4章データの表現と特徴量エンジニアリング

Don’t leave empty-handed

It’s yours, free.

Check it out now on O’Reilly