
5.2
クラスタリングアルゴリズム
119
y_train = pd.Series(data=y_train,index=train_index)
X_validation = pd.DataFrame(data=X_validation,index=validation_index)
y_validation = pd.Series(data=y_validation,index=validation_index)
X_test = pd.DataFrame(data=X_test,index=test_index)
y_test = pd.Series(data=y_test,index=test_index)
5.2
クラスタリングアルゴリズム
クラスタリングを行う前に、
PCA
を用いて次元削減を行う。
3
章で見たように次元削減アルゴリズム
を用いると、元データの重要な情報を保ちつつデータセットのサイズを削減することができる。
高次元から低次元にデータを移すと、データセット中のノイズを低減することになる。これは、次元
削 減 ア ル ゴ リ ズ ム( こ の 場 合 は
PCA
)は、元データの最も重要な側面を捉える必要があるので、(デー
タセット中のノイズのような)まれにしかない事例には十分は注意を払うことができないからだ。
次元削減アルゴリズムはデータの背後にある構造を学習する非常に強力な手法だということを思い
出そう。
3
章では、
MNIST
の数字を表示した画像を次元削減後のわずか
2
つの次元で、ほぼ分