
446
5
章 機械学習
上の行は入力イメージを示し、下の行は約
3,000
個の特徴から
150
個だけを使用して再構成した
イメージを示しています。この可視化は、「5.7 詳細:サポートベクターマシン」で使用した
PCA
による特徴選択が成功した理由を明らかにします。データの次元数は約
20
分の
1
に削減されます
が、見た目で画像の個人を特定できるだけの十分な情報を保持しています。つまり、使用する特定
のアルゴリズムに応じて、より効率的な分類ができるように
3,000
次元データではなく、
150
次元
データで学習を行います。
5.9.4
主成分分析まとめ
この節では、主成分分析を使用した次元削減、高次元データの可視化、ノイズフィルタリング、
および高次元データ内の特徴選択について学びました。
PCA
は汎用性が高く解釈が容易であるた
め、多種多様な状況や分野で有効であることが示されています。筆者は高次元のデータセットがあ
ると、まず
PCA
を使って(手書
き数字で行ったように)ポイント間の関係を可視化したり、(固有顔
画像で行ったように)データの主要部分の分散を理解したり、(累積因子寄与率をプロットして)本
質的な次元はどこまでなのかを把握します。
確かに、
PCA
はあらゆる高次元データセットに対して有用な訳ではありませんが、高次元デー
タの洞察を得るための直接的かつ効率的な手段を提供します。
PCA
の主な弱点は、データの外れ
値の影響を強く受ける傾向があることです。この理由のため、
PCA
には堅牢なバリエーションが
数多く開発されています。その多くは最初の主成分によって記述されていないデータポイントを反 ...