April 2022
Intermediate to advanced
376 pages
4h 55m
Japanese
本章のテーマは、DQN(Deep Q Network)です。DQNは、Q学習とニューラルネットワークを使った手法です。前章ではQ学習とニューラルネットワークの融合の仕方を学びました。DQNはそこにプラスして新しい技術——「経験再生」と「ターゲットネットワーク」——が使われます。本章では、それらの技術について学び、実装してその効果を検証します。さらに、DQNを拡張した手法(「Double DQN」「優先度付き経験再生」「Dueling DQN」)についても取り上げます。
DQNは、テレビゲームのような複雑なタスクでも見事にプレイすることができ、そこから今の深層強化学習のブームが始まりました。そういう点で、DQNは深層強化学習における記念碑的な研究と言えます。DQNが発表されたのは2013年とやや古くなりましたが、現在でもDQNをベースとした手法は数多く提案されています。DQNは未だに重要なアルゴリズムの1つです。
また本章からは、これまでの「グリッドワールド」から卒業して、より実践的な問題に取り組みます。具体的には、OpenAI Gymというツールを使って「カートポール」という問題に取り組みます。まずはOpenAI Gymの使い方から見ていきます。
OpenAI Gymはオープンソースのライブラリです。図8-1のように、様々な強化学習のタスク(環境)が用意されています。
図8-1 OpenAI Gym[9]のタスク一覧の画面
OpenAI ...