Skip to Content
ゼロから作るDeep Learning ❹ ―強化学習編
book

ゼロから作るDeep Learning ❹ ―強化学習編

by 斎藤 康毅
April 2022
Intermediate to advanced
376 pages
4h 55m
Japanese
O'Reilly Japan, Inc.
Content preview from ゼロから作るDeep Learning ❹ ―強化学習編

8章DQN

本章のテーマは、DQN(Deep Q Network)です。DQNは、Q学習とニューラルネットワークを使った手法です。前章ではQ学習とニューラルネットワークの融合の仕方を学びました。DQNはそこにプラスして新しい技術——「経験再生」と「ターゲットネットワーク」——が使われます。本章では、それらの技術について学び、実装してその効果を検証します。さらに、DQNを拡張した手法(「Double DQN」「優先度付き経験再生」「Dueling DQN」)についても取り上げます。

DQNは、テレビゲームのような複雑なタスクでも見事にプレイすることができ、そこから今の深層強化学習のブームが始まりました。そういう点で、DQNは深層強化学習における記念碑的な研究と言えます。DQNが発表されたのは2013年とやや古くなりましたが、現在でもDQNをベースとした手法は数多く提案されています。DQNは未だに重要なアルゴリズムの1つです。

また本章からは、これまでの「グリッドワールド」から卒業して、より実践的な問題に取り組みます。具体的には、OpenAI Gymというツールを使って「カートポール」という問題に取り組みます。まずはOpenAI Gymの使い方から見ていきます。

8.1 OpenAI Gym

OpenAI Gymはオープンソースのライブラリです。図8-1のように、様々な強化学習のタスク(環境)が用意されています。

OpenAI Gym<span class="bibref"><a href="ch18bib.xhtml#bib-gym">[9]</a></span>のタスク一覧の画面

図8-1 OpenAI Gym[9]のタスク一覧の画面

OpenAI ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

AirBnbBlueOriginElectronic ArtsHomeDepotNasdaqRakutenTata Consultancy Services

QuotationMarkO’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.
Julian F.
Head of Cybersecurity
QuotationMarkI wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.
Addison B.
Field Engineer
QuotationMarkI’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.
Amir M.
Data Platform Tech Lead
QuotationMarkI'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.
Mark W.
Embedded Software Engineer

You might also like

ゼロから作るDeep Learning ❸ ―フレームワーク編

ゼロから作るDeep Learning ❸ ―フレームワーク編

斎藤 康毅

Publisher Resources

ISBN: 9784873119755Other