8章AIによるゲームプレイ
これまでの章では、値の予測や分類といった教師あり学習の手法、またGANや自己符号化器、生成モデルといった教師なし学習の手法を見てきました。教師あり学習では入力とそれに対する出力の関係を学習させることで、新しい入力に対して適切な出力が予測できるようにします。一方、教師なし学習では入力のみを与えて、そのデータ構造を学習させることで分類などが行えるようにします。
本章では、強化学習(reinforcement learning)と、ディープラーニングを強化学習に適用する方法について学びます。強化学習は、その起源を行動心理学に持ちます。教育対象となるエージェントは、正しい行動に対しては報酬が与えられ、間違った行動に対してはペナルティ(負の報酬)が与えられます。これはディープラーニングを利用して作成された強化学習のネットワークでも同様で、ある入力に対してネットワークが望ましい出力(行動)を行うか否かによって報酬が与えられ、それにより学習が行われます。報酬の確定は一連の行動の結果を待たないといけないため(ゲームの勝敗がつくのに何手か必要なように)、報酬は間隔が空いた事後的なものとなります。この出力と報酬の獲得を繰り返すことで、ネットワークは学習をしていきます。
ディープラーニングを強化学習へ適応する手法は、2013年にDeepMindという、その当時は小さなイギリスの会社が発表した論文で最初に提案されました(詳細については、V. Mnihの“Playing Atari with Deep Reinforcement Learning”,arXiv:1312.5602, 2013を参照してください)。この論文では主に画像認識で利用されるモデルである畳み込みニューラルネットワーク ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access