
14.5
教師なし学習の未来
305
学習を用いると、モデル構築時に計算が面倒になることを恐れずに、元の特徴量集合をそのまま使え
るだけでなく、特徴量エンジニアリングを行って新しい特徴量集合を追加することさえできる。
元の特徴量集合に特徴量エンジニアリングで作った特徴量を追加したら、次元削減を用いて余分な
特徴量を捨てて、最も重要で他の特徴量と相関していない特徴量だけをモデル構築に使えばいいのだ。
このようなデータの圧縮は、教師あり学習システムの前処理としても有効だ(特に動画や画像の場合)。
教師なし学習は、どの顧客の挙動が一番普通ではないか(つまり大半の顧客と挙動が大きく違う顧
客はだれか)というようなビジネスサイドからの質問に、データサイエンティストが返答するのを助け
てくれる。類似した点をクラスタとしてまとめて、アナリストがグループ分けをすれば、このような問
いに答える知見が得られる。相互に似ていない独立したグループに分割できれば、人間が個々のグルー
プを見て、どこが独特で他のグループと異なることを調べることができる。そうすることで、何が起
こっているのかを深く理解することができ、企業戦略の改善にもつながるだろう。
クラスタリングを用いると、データのラベル付けがかなり容易になる。類似したデータが
1
つのグ
ループに分けられているので、クラスタごとに数点だけラベル付けすればいいからだ。それができたら、
ラベル付けされていない点は、同じグループのラベル付けされた点のラベルを引き継げばいい。
また、生成モデル ...