9章特徴量抽出による次元削減

レシピ9.0 はじめに

 特徴量の数が、数千、数十万になることは珍しくない。例えば、「8章 画像の取り扱い」では、256×256ピクセルのカラー画像を196,608特徴量に変換した。さらに、個々のピクセルが256の値を取るので、1つの観測値が256196608通りの値を取りうることになる。多くの機械学習アルゴリズムはこのようなデータから学習することはできない。アルゴリズムが正しく動作するのに十分な数の観測値を得ることが現実的でないからだ。テーブル型のより構造化されたデータセットであっても、特徴量エンジニアリングを行うと、特徴量の数が簡単に数千になってしまう。

 幸い、すべての特徴量が等しく価値を持つわけではない。次元削減による特徴量抽出の目的は、もとの特徴量集合poriginalの持つ情報をなるべく維持したまま変換し、poriginalpnewとなるような特徴量集合pnewを作ることだ。言い換えると、データの高品質な予測を生成する能力を維持したまま、特徴量の数を減らすことが目的だ。本章では、これを実現するさまざまな次元削減手法を紹介する。

 特徴量抽出手法の問題点は、新しく作られる特徴量が、人間が理解できないものになることだ。新しい特徴量は、モデルを訓練する機能の面では、もとの特徴量と同等かわずかに劣る程度だが、人間の目には、ランダムな値にしか見えない。人間が解釈しやすいモデルが必要ならば、特徴量選択による次元削減を用いたほうがよい(これについては10章で説明する)。特徴量削減では、重要でないと思われる特徴量を削除するがそれ以外の特徴量はそのまま維持する。この方法では、特徴量抽出した場合よりも維持できる情報量が減ってしまうかもしれないが、削除しなかった特徴量はそのまま残る。このため、分析の際の解釈しやすさは保たれる。 ...

Get Python機械学習クックブック 第2版 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.