8章DQN

本章のテーマは、DQN(Deep Q Network)です。DQNは、Q学習とニューラルネットワークを使った手法です。前章ではQ学習とニューラルネットワークの融合の仕方を学びました。DQNはそこにプラスして新しい技術——「経験再生」と「ターゲットネットワーク」——が使われます。本章では、それらの技術について学び、実装してその効果を検証します。さらに、DQNを拡張した手法(「Double DQN」「優先度付き経験再生」「Dueling DQN」)についても取り上げます。

DQNは、テレビゲームのような複雑なタスクでも見事にプレイすることができ、そこから今の深層強化学習のブームが始まりました。そういう点で、DQNは深層強化学習における記念碑的な研究と言えます。DQNが発表されたのは2013年とやや古くなりましたが、現在でもDQNをベースとした手法は数多く提案されています。DQNは未だに重要なアルゴリズムの1つです。

また本章からは、これまでの「グリッドワールド」から卒業して、より実践的な問題に取り組みます。具体的には、OpenAI Gymというツールを使って「カートポール」という問題に取り組みます。まずはOpenAI Gymの使い方から見ていきます。

8.1 OpenAI Gym

OpenAI Gymはオープンソースのライブラリです。図8-1のように、様々な強化学習のタスク(環境)が用意されています。

OpenAI Gym<span class="bibref"><a href="ch18bib.xhtml#bib-gym">[9]</a></span>のタスク一覧の画面

図8-1 OpenAI Gym[9]のタスク一覧の画面

OpenAI ...

Get ゼロから作るDeep Learning ❹ ―強化学習編 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.