
308 10 章 ネットワーク分析と距離
EM 法
k 平均法は、EM 法(expectation
maximization、期待値最大化法)に基づく一連の学習アルゴリズムの中
でも最も有名なものだ。細部では、ここで説明するよりもずっと堅苦しい統計学が必要だが、原則は、(a)
個々の点をクラスタの中心と推定されるものの中で最も近いものに対応付け、(b) 推定される中心と個々の
点の関係を利用して、中心の推定を改善するという k 平均法の 2 つの論理ステップを観察するとわかる。対
応付けの操作が期待、すなわち E ステップ、中心の(再)計算が最大化、すなわち M ステップである。
私は、「期待」と「最大化」という言葉には、k 平均法を思い起こさせる特別な響きを感じない。しかし、
前のモデルの誤差に基づいて段階的にパラメータを改良していく反復的なパラメータフィッティングアルゴ
リズムの形態は、合理的な手法だと思う。例えば、部分的にラベルが付けられた分類データがあり、自信を
持って正しいクラスだと言えるような訓練事例が比較的少なかったとする。この場合、これら少数の訓練事
例に基づいて分類器を作り、ラベルのない事例にクラス候補を割り当てることができる。おそらくこれで
もっと大規模な訓練セットが定義されたはずなので、個々のクラスにもっとうまくフィットするモデルを作
れるはずだ。そして、点に改めてクラスを割り当て直す。これを繰り返せば、いずれもっと良いモデルに収
束するはずである。
10.5.2 階層的クラスタリング ...