
117
5
章
クラスタリング
「3章 次元削減」では、教師なし学習の中で最も重要な次元削減アルゴリズムを紹介し、情報を密
に捉える能力があることを説明した。「4 章 異常検出」では、その次元削減アルゴリズムを用いて異常
検出システムを構築した。具体的には、ラベルを用いずにクレジットカードの不正利用を検出すること
ができた。これらのアルゴリズムで、クレジットカードトランザクションの背後にある構造を学習し、
再構成誤差を用いて通常のトランザクションと、まれにしか発生せず、したがっておそらくは不正であ
ると思われるトランザクションとを分離した。
本章では、教師なし学習の概念をさらに進めて、類似性に基づいて観測点をグループ分けする手法
であるクラスタリングを紹介する。クラスタリングは、観測点と他の観測点もしくは観測点のグループ
がどれだけ似ているかを比較することで、ラベルを使わずにグループ分けを行う。
クラスタリングにはさまざまな応用がある。例えば、クレジットカード不正検出を不正なトランザク
ションと真正のトランザクションのグループ分けだと考えることもできる。また、データセット中にラ
ベルの付いた観測点がわずかしかない場合には、ラベルを使わずにデータセットの観測点をクラスタ
リングでグループ分けし、ラベル付きのデータを使って同じグループ内の観測点すべてにラベルを付
けることもできるだろう。これは、急速に発展しつつある機械学習の一分野である転移学習(
transfer
learning
)の 一 種 だ 。
クラスタ