17章自動運転車を1時間でビルドする:AWS DeepRacerへの強化学習の適用
Sunil Mallya
テクノロジー関連のニュースをチェックしていると、コンピュータが世界を支配するのかといった議論が幾度となく繰り返されていることがわかります。思考実験としては興味深いトピックですが、そもそもなぜこのような議論が何度も発生するのでしょうか。主な原因として考えられるのは、意思決定を必要とする作業でコンピュータが人間を上回ったという数々のニュースです。チェスでの勝利や、Atariのビデオゲームでの高スコア獲得(2013年)、囲碁での勝利(2016年)そしてDefence of the Ancients 2での人間のチームに対する勝利(2017年)などが挙げられます。最も印象的だったのは、「ボット」同士がプレイすることによってゲームの内容を学習し、成功のための戦略を自ら強化していったというニュースではないでしょうか。
より広い観点から見ると、これは人間がペットをしつけるのとほぼ同じことです。例えば犬を訓練したいなら、望ましいふるまいにはごほうびやハグを与え、悪いふるまいに対しては叱るでしょう。このように、良い行いを促進し悪い行いを思いとどまらせるということは強化学習の根幹です。
コンピュータゲームに限らずどんなゲームでも、連続した意思決定が求められます。一方、従来の教師付きの学習は1回で完結する判断(例えば、画像が犬か猫か)を対象としており、ゲームには適していません。強化学習界隈には「みんな一日中ゲームで遊んでいるだけだ」というジョーク(あながち嘘でもないのですが)があるほどです。しかし、今日の強化学習はさまざまな業界で活用されています。株取引の最適化や、ビルやデータセンターの空調管理、オンライン広告のリアルタイム入札、動画配信の品質の最適化、実験室での化学反応の最適化などに強化学習が取り入れられています。このような幅広い実用例からも、連続した意思決定や最適化に強化学習を適用することのメリットは明らかです。この章では、強化学習を利用した18分の1スケールの自動運転車を作成するというタスクに取り組みます。所要時間は1時間以下です。 ...
Get ディープラーニング実践ガイド ―クラウド、モバイル、ブラウザ、エッジデバイス向けAIアプリ開発入門 now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.