4章データの表現と特徴量エンジニアリング

これまでは、データが2次元の浮動小数点数配列として得られることを仮定していた。この配列のそれぞれの列はデータポイントを表す連続値特徴量(continuous feature)だ。しかし、このような形でデータが得られないアプリケーションも多い。特に一般的な特徴量の種類として、カテゴリ特徴量(categorical feature)がある。これは離散値特徴量(discrete feature)とも呼ばれ、一般に数値ではない。カテゴリ特徴量と連続値特徴量の違いは、クラス分類と回帰の違いに似ているが、出力側ではなく入力側である。連続値特徴量の例としては、ピクセルの明るさ、花の大きさを測定した値などがある。カテゴリ特徴量の例としては、製品のブランドや色、販売されている部門(書籍、衣料、金物)などがある。これらはすべて製品を表現する特性であるが、連続的に変化するものではない。ある製品は衣料部門か書籍部門のどちらかに所属する。衣料と書籍の間などというものはないし、部門間に自然な順番はない(書籍は衣料より大きくも小さくもないし、金物がこの2つの間だということもない)。

データを構成する特徴量のタイプによらず、特徴量の表現は機械学習モデルの性能に多大な影響を及ぼす。「2章 教師あり学習」と「3章 教師なし学習と前処理」で、データのスケールが重要であることを説明した。データを(例えば分散を1に)スケール変換しないと、センチで測定したか、インチで測定したかによってデータ表現が変わってしまう。また、「2章 教師あり学習」では、特徴量の相互作用(積)やもっと一般的な多項式を追加して特徴量を強化(augment)するとよいことも学んだ。

特定のアプリケーションに対して、最良のデータ表現を模索することを、 ...

Get Pythonではじめる機械学習 ―scikit-learnで学ぶ特徴量エンジニアリングと機械学習の基礎 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.