
1.5
教師あり学習アルゴリズムの紹介
9
1.4.4
特徴量エンジニアリング
特徴量エンジニアリングは、データサイエンティストの最も重要な仕事の
1
つだ。適切な特徴量がな
ければ機械学習アルゴリズムは見たことのないサンプルに対して適切に判断を行えるように空間を分
割することができない。しかし、特徴量エンジニアリングはとても手間のかかる作業だ。人間が創造性
を持って正しい特徴量を見出さなければならない。ここで、教師なし学習による表現学習を用いると、
自動的に正しい特徴量表現を学習させ、対象となるタスクを解く助けとすることができる。自動特徴量
抽出については「7 章 オートエンコーダ」で見ていく。
1.4.5
外れ値
データの質もまたとても重要だ。まれにしか存在しないが判断を歪めてしまうような外れ値がある場
合、外れ値を無視するか別途学習するようにしないと、機械学習アルゴリズムの汎化誤差が大きくなっ
てしまう。教師なし学習を用いると次元削減によって外れ値検出ができるので、正常値と外れ値を分
けて処理することができる。「4章 異常検出」で外れ値検出システムを構築する。
1.4.6
データドリフト
機械学習モデルはデータのドリフトを検出できなければならない。モデルの予測対象データが、学
習時のデータと統計的に変わってしまったら、現在のデータをよりよく表したデータを使って再学習し
なければならない。モデルを再学習しなかったり、ドリフトそのものに気が付かなかった場合には、モ
デルの予測性能は低下するだろう。
教師なし学習を用いて ...