
378
5
章 機械学習
この節では、特徴量エンジニアリングの一般的な例をいくつか取り上げます。カテゴリデータを
表す特徴量、テキストを表す特徴量、イメージを表す特徴量などです。さらに、モデルの複雑さに
対応するために他の特徴から導出された特徴量や、欠落しているデータを補完するための機能につ
いても説明します。多くの場合、このプロセスはベクトル化(
vectorization
)と呼ばれ、任意のデー
タを適切に動作するベクトルに変換します。
5.4.1
カテゴリ特徴量
非数値データの一般的なタイプの
1
つがカテゴリデータです。例えば、住宅価格に関するいくつ
かのデータを調べているとしましょう。「価格」や「部屋数」などの数値の特徴量に加えて、「地域」
に関する情報もあるとします。例えば、次のようなデータで考えてみましょう
*
1
。
In[1]: data = [
{'price': 850000, 'rooms': 4, '
neighborhood': 'Queen Anne'},
{'price': 700000, 'rooms': 3, 'neighborhood': 'Fremont'},
{'price': 650000, 'rooms': 3, 'neighborhood': 'Wallingford'},
{'price': 600000, 'rooms': 2, 'neighborhood': 'Fremont'}
]
おそらく最初は、このデータを単純な数値に置き換えることを考えるでしょう。
In[2]: ...