
344 11 章 機械学習
• Z スコ
アと正規化:一般に、比較可能な範囲で値が正規分布に従っている特徴が最良の特徴である。
範囲を比較可能にするためには、値から平均を引き、その差を標準偏差で割って(Z = (x − µ)/σ)
値を Z スコアに変換する必要がある。また、べき乗則変数を正規分布に近づけるために、特徴セット
の x を log x に置き換える。
• 欠損値の補定:データに欠損値が含まれないようにする。欠損値がある場合は、意味のある推測や推
計によって適切な値に置き換える。体重を −1 に設定してしまうと、モデルは簡単に台無しになる。
最も単純な補定の方法は、欠損値をその列の平均値に置き換えるもので、一般にはそれで十分だが、
レコード内の他の変数に基づいて欠損値を予測するモデルを訓練すればさらに強力となる。詳しく
は、3.3.3 を読み返してほしい。
• 次元削減:正則化とは、関係のない特徴を捨ててオーバーフィッティングを防ぐ方法を思い出そう。
モデルを訓練する前にデータセットから無関係な特徴を取り除けばさらに効果的である。特徴 x が
モデルにとって無関係だと考えられるのはどのようなときだろうか。ターゲット変数 y との相関が弱
いときや、x が y に影響を与えるかもしれない理由をきちんと説明できないときは、x が無関係だと
疑ってよいだろう。
特異値分解のような次元削減技法は、大規模な特徴ベクトルをさらに強力で簡潔な表現にまとめる方
法として優れている。訓練時間が短縮され、オーバーフィッティングが減り、観測値に含まれるノイ ...