
5.4
特徴量エンジニアリング
383
図5-37 データから導出された多項式特徴量に対する線形近似
モデルを変更するのではなく、入力を変換することによってモデルを改善するこの方法は、多く
の強力な機械学習手法にとって基本的なアイデアです。この考え方は、「5.6 詳細:線形回帰」の
「5.6.2 基底関数回帰」でさらに検討します。より一般的に言うと、これはカーネルメソッドと呼
ばれる強力な手法へと至る技術の
1
つです。詳しくは、「5.7 詳細:サポートベクターマシン」で
説明します。
5.4.5
不足しているデータの補完
特徴量エンジニアリングの一般的な目的には、欠落しているデータの処理も含まれます。「3.5
欠損値の扱い」では、
DataFrame
の中で欠損データをどのように扱うかについて説明し、
NaN
値を欠
損値の印として使用することを学びました。例えば、次のようなデータセットがあるとします。
In[14]: from numpy import nan
X = np.array([[ nan, 0, 3 ],
[ 3, 7, 9 ],
[ 3, 5, 2 ],
[ 4, nan, 6 ],
[ 8, 8, 1 ]])
y = np.array([14, 16, -1, 8, -5])
このデータに典型的な機械学習モデルを適用するには、欠落したデータを適切な値で置き換える
必要があります。これは欠損値の補完(
imputation
)と呼ばれ、単純な手法(欠損値を列の平均で置
換)から洗練された手法(マトリクス補間や、そのようなデータを扱う堅牢なモデルの使用) ...