18章強化学習
強化学習(RL:reinforcement learning)は、現在の機械学習でもっとも刺激的な分野の1つであると同時に、もっとも古い分野の1つでもある。強化学習は1950年代から存在し、長年に渡って、特にゲーム(たとえば、バックギャモンをプレイするTD-Gammonプログラム)や機械制御の分野などで多くのアプリケーションを生み出してきた†1が、新聞の見出しを飾るようなことはまずなかった。しかし、2013年になって、イギリスのDeepMindというスタートアップの研究者たちが、ほぼすべてのアタリゲームを0から学習できるシステムを作り(https://homl.info/dqn)†2、最終的にほとんどのゲームで人間よりも上達した(https://homl.info/dqn2)†3ところを実演してみせたときに地殻変動が起きた。そのシステムは、入力として未加工のピクセルだけを使い、ゲームのルールについての知識を事前に持たずにそこまでの力をつけたのである†4。しかし、これは一連の驚くべき偉業の第一歩に過ぎなかった。2016年3月には、DeepMindのAlphaGoが伝説的なプロ棋士Lee Sedolに勝ち、2017年5月には世界チャンピオンのKe Jieにも勝った。それまで囲碁の達人と接戦を演じることができたプログラムなどなかった。まして、世界チャンピオンと戦えるものなどなかったのである。今では、強化学習の分野全体で新しいアイデアが次々に生まれ、さまざまな形で応用されている。ちなみに、DeepMindは2014年にGoogleに5億ドルで買収された。
[†1] 詳しくは、Richard SuttonとAndrew Bartoの"Reinforcement Learning: ...
Get scikit-learn、Keras、TensorFlowによる実践機械学習 第2版 now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.