
464
5
章 機械学習
ます。クラスタリングアルゴリズムは、データの特性から、ポイント群の最適な分割または離散ラ
ベル付けを学習します。
scikit-learn
では数多くのクラスタリングアルゴリズムが提供されていますが、理解しやすく最も
単純なアルゴリズムは
k
平均法(
k-means
)クラスタリングと呼ばれ、
sklearn.cluster.KMeans
で実
装されています。標準的なモジュールを最初にインポートします。
In[1]: %matplotlib inline
import matplotlib.pyplot as plt
import seaborn as sns; sns.set() # for plot styling
プロットのスタイルを決める
import numpy as np
5.11.1
k
平均法の基礎
k
平均法アルゴリズムは、ラベル付けされていない多次元データセット内で与えられた数のクラ
スタを探します。これは、最適なクラスタリングはどのように見えるかという、次のような単純な
概念を使用します。
●
「クラスタの中心」は、クラスタに属するすべてのポイントの算術平均である。
●
各ポイントは、他のクラスタ中心よりも自分の属するクラスタの中心に近い。
この
2
つの前提が、
k
平均法モデルの基礎となります。アルゴリズムがどのようにしてこの解に
至るかについては、後で紹介しますが、まずは単純なデータセットに
k
平均法を適用した結果を見
てみましょう。
まず、
4
つの異なる集団からなる
2
次元のデ