February 2024
Intermediate to advanced
576 pages
9h 17m
Japanese
前章で説明したk平均法クラスタリングモデルは単純かつ比較的理解しやすいものですが、そのシンプルさ故に実際的な問題をもたらします。特にk平均法の非確率的な性質と、クラスタメンバーを割り当てるために用いる単純なクラスタ中心からの距離の仕組みは、多くの現実的な状況において高いパフォーマンスが望めません。この章では、k平均法の背後にあるアイデアの拡張とみなせる混合ガウスモデル(GMM:Gaussian Mixture Models)を学びますが、単純なクラスタリング以上に、推定のための強力なツールにもなります。
まず標準的なモジュールをインポートします。
In [1]: %matplotlib inline
import matplotlib.pyplot as plt
plt.style.use('seaborn-whitegrid')
import numpy as np
k平均法の弱点を見た上で、クラスタモデルをどのように改善できるかを考えてみましょう。前の章で見たように、単純でわかりやすいデータがあれば、k平均法は適切なクラスタリング結果を見つけられます。
例えば、単純な集団を形成しているデータに対して、k平均法アルゴリズムは見た目で行うのと同じような方法で、クラスタに素早くラベルを付けられます(図48-1を参照)。
In [2]: # データの生成 from sklearn.datasets import make_blobs X, y_true = make_blobs(n_samples=400, centers=4, cluster_std=0.60, random_state=0) ...