8章次元削減

機械学習問題の多くは、訓練インスタンスごとに数千、いや数百万もの特徴量を相手にすることになる。そのために訓練が極端に遅くなるだけでなく、よい解を見つけることが困難になっている。この問題は、よく次元の呪い(curse of dimentionality)と呼ばれている。

幸い、現実の問題では、特徴量の数をかなり減らせることが多く、手に負えないような問題を扱いきれる問題に変えることができる。たとえば、MNISTイメージ(3章参照)について考えてみよう。イメージの境界線のピクセルはほとんど必ず白であり、訓練セットからこの部分のピクセルを取り除いても情報はほとんど失われない。図7-6を見れば、分類の仕事ではこれらのピクセルは無意味だということがわかる。さらに、2つの隣り合うピクセルには高い相関があることが多い。これらを1つのピクセルにマージしても(たとえば、2つのピクセルの明度の平均で)、あまり情報は失われない。

[警告]

次元削減は確実にある程度の情報を失う(イメージをJPEGに圧縮すると品質が下がるのと同じように)。そのため、次元削減は訓練にかかる時間を短縮するだけでなく、システムの性能を少し劣化させる。また、次元削減によってパイプラインは少し複雑になり、メンテナンスしにくくなる。そこで、最初はオリジナルデータでシステムを訓練し、時間がかかり過ぎるときに限り次元削減を考えるようにすべきだ。もっとも、訓練データの次元削減により、ノイズや不必要な細部が消えてモデルの性能がかえって上がる場合もある(普通はそのようなことはなく、訓練のスピードが上がるだけである)。 ...

Get scikit-learn、Keras、TensorFlowによる実践機械学習 第2版 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.