
6.4
階層クラスタリングの適用
151
28 0.376327
29 0.269129
dtype: float64
クラスタごとに精度はかなり異なる。一部のクラスタは他のものよりもはるかに同質だ。例えばクラ
スタ
7
の精度は
76%
にもなるが、クラスタ
12
はわずか
21%
だ。このシステムが、
LendingClub
ローン
の借入希望者に対して、他の借入者との類似性に基づいて既存のグループを自動的に割り当てるクラ
スタリング応用システムのベースとなる。このクラスタリング結果から、新規の借入希望者に対してお
よそ
39%
の精度で仮のローングレードを自動的に割り当てることができることがわかる。
これが最良の解というわけではない。結果を改善するためには、もっとデータを取得するべきか、
もっと特徴量エンジニアリングと特徴量選択を行うべきか、
k
平均法アルゴリズムのパラメータを変更
するべきか、別のクラスタリングアルゴリズムに切り替えるべきかなど、考える必要がある。借用者を
意味がある形で分離した同質なグループに分類できるだけの十分なデータがないという場合もありう
る。そのような場合には、より多くのデータを取得し、さらに特徴量エンジニアリングと特徴量選択を
行う必要がある。また、手元にある限定されたデータに対しては、
k
平均法が最良の手法ではないとい
うこともありうる。
次は、階層クラスタリングを試してみよう。結果は良くなるだろうか?
6.4
階層クラスタリングの適用
階層クラスタリングでは、事前にクラスタ数を指定する必要がないことを思い出 ...