
13.4
k-Shape
法による時系列クラスタリング:
ECG5000
291
Adjusted Rand Index on Test Set: 0.5301670526070555
訓練セットのサイズを
23
から
4,000
にまで増やしたことで、はるかに性能が良い時系列クラスタリン
グモデルを構築できた。
作成されたクラスタをもう少し詳しく調べてみよう。クラスタはどれだけ均質になっているだろうか。
予測されたそれぞれのクラスタに対して、実際のラベルの分布を見てみよう。クラスタがうまく分割で
きていて均質であるなら、それぞれのクラスタ内の心電図の真のラベルはほとんどが同じになるはず
だ。
# Evaluate goodness of the clusters
preds_test = preds_test.reshape(1000,1)
preds_test = np.hstack((preds_test,data_test[:,0].reshape(1000,1)))
preds_test = pd.DataFrame(data=preds_test)
preds_test = preds_test.rename(columns={0: 'prediction', 1: 'actual'})
counter = 0
for i in np.sort(preds_test.prediction.unique()):
print("Predicted Cluster ", i)
print(preds_test.actual[preds_test.prediction==i].value_counts()) ...