9章教師なし学習のテクニック

今日の機械学習のほとんどの応用は教師あり学習を基礎としている(そのため、投資もほとんどこの分野に偏っている)が、利用できるデータの大多数にはラベルが付けられていない。入力特徴量\mathbf{X}があっても、ラベル\mathbf{y}はないのだ。コンピュータサイエンティストのYann LeCunは「人工知能をケーキにたとえれば、教師なし学習はケーキそのものだが、教師あり学習はケーキのなかの飾り、強化学習はケーキの上のサクランボに過ぎない」という有名な発言をしている。つまり、私たちがようやく真剣に考えるようになり始めた教師なし学習にはとてつもない可能性が開けている。

工場の製造ラインで個々の製品について数枚の写真を取り、その製品が不良品どうかを判定するシステムを作りたいものとする。自動的に写真を撮るシステムは比較的簡単に作ることができ、作れば数週間で十分大規模なデータセットが作れる。しかし――、ラベルがない! 製品が不良どうかを予測する通常の二項分類器を訓練したいなら、すべての写真に「不良」、「正常」のラベルを付けなければならない。一般に、そのためには人間の専門家に手作業ですべての写真を見てもらう必要がある。これは時間がかかり面倒でコストのかかる作業なので、ごく一部の写真だけについてすることになるだろう。ラベル付きのデータセットはごく小規模になり、分類器の性能は残念なものになってしまう。しかも、製品に少し変更を加えるたびに、すべての作業を最初からやり直すことになる。すべての写真に人間がラベルを付けなくても、ラベルなしのデータを活用できるアルゴリズムがあれば、その方がよいのではないだろうか。教師なし学習である。 ...

Get scikit-learn、Keras、TensorFlowによる実践機械学習 第2版 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.