
10.5 クラスタリング 303
図 10 -12 この中にクラスタがいくつあると思うか
今後の課題
明ら
かにしたい類似性を正確に反映するメトリックを選ぼう。クラスタリングアルゴリズムの選
択は、通常類似度や距離ほど重要ではない。
10.5.1 k 平均法
本書では、クラスタリングアルゴリズムが答えとして何を返すべきかについてあまり厳格に規定してこな
かった。1 つの方法は、個々の点に属するクラスタの名前のラベルを与えるというものである。k 個のクラ
スタがあるなら、ラベルは 1 から k までの整数でよい。ラベル i を持つ点は、i 番目のクラスタに属すると
いう意味だ。k 個の点のリストを返すというのも同じ意味の出力になる。リスト i は、i 番目のクラスタに
含まれるすべての点を表す。
しかし、各クラスタの中心点を返すというより抽象的な方法もある。一般に、自然なクラスタは、正規分
布に従っていて、点がある「べき」場所を示す理想の中心があるものと考えられる。このような中心の集合
があれば、点のクラスタリングは簡単になる。単純に点 p から最も近い中心点 C
i
のクラスタに p を入れれ
ばよい。i 番目のクラスタは、最近傍の中心が C
i
になっているすべての点から構成される。
k 平均法は、高速でわかりやすく一般に効果的なクラスタリング方法である。まず、クラスタの中心がど
こにあるかを推定し、それらの中心の品質を評価し、より良い推定を得るために改訂を重ねていく。
k 平均法は、データに k 個のクラスタがあると想定した上で、各クラスタの中心の初期値を選ぶ。おそら ...