book

ゼロから作るDeep Learning ❹ ―強化学習編

Name: ゼロから作るDeep Learning ❹ ―強化学習編
Author: 斎藤 康毅
ISBN: 9784873119755

by 斎藤康毅

April 2022

Intermediate to advanced

376 pages

4h 55m

Japanese

O'Reilly Japan, Inc.

Read now

Unlock full access

　大扉
　クレジット
　まえがき
　1章　バンディット問題
　　1.1　機械学習の分類と強化学習　　　1.1.1　教師あり学習　　　1.1.2　教師なし学習　　　1.1.3　強化学習　　1.2　バンディット問題　　　1.2.1　バンディット問題とは　　　1.2.2　良いスロットマシンとは　　　1.2.3　数式を使って表す　　1.3　バンディットアルゴリズム　　　1.3.1　価値の推定方法　　　1.3.2　平均値を求める実装　　　1.3.3　プレイヤーの戦略　　1.4　バンディットアルゴリズムの実装　　　1.4.1　スロットマシンの実装　　　1.4.2　エージェントの実装　　　1.4.3　動かしてみる　　　1.4.4　アルゴリズムの平均的な性質　　1.5　非定常問題　　　1.5.1　非定常問題を解くために　　　1.5.2　非定常問題を解く　　1.6　まとめ
　2章　マルコフ決定過程
　　2.1　MDPとは　　　2.1.1　MDPの具体例　　　2.1.2　エージェントと環境のやりとり　　2.2　環境とエージェントの定式化　　　2.2.1　状態遷移　　　2.2.2　報酬関数　　　2.2.3　エージェントの方策　　2.3　MDPの目標　　　2.3.1　エピソードタスクと連続タスク　　　2.3.2　収益　　　2.3.3　状態価値関数　　　2.3.4　最適方策と最適価値関数　　2.4　MDPの例　　　2.4.1　バックアップ線図　　　2.4.2　最適方策を見つける　　2.5　まとめ
　3章　ベルマン方程式
　　3.1　ベルマン方程式の導出　　　3.1.1　確率と期待値（ベルマン方程式のための下準備）　　　3.1.2　ベルマン方程式の導出　　3.2　ベルマン方程式の例　　　3.2.1　2マスのグリッドワールド　　　3.2.2　ベルマン方程式の意義　　3.3　行動価値関数とベルマン方程式　　　3.3.1　行動価値関数　　　3.3.2　行動価値関数を使ったベルマン方程式　　3.4　ベルマン最適方程式　　　3.4.1　状態価値関数におけるベルマン最適方程式　　　3.4.2　Q関数におけるベルマン最適方程式　　3.5　ベルマン最適方程式の例　　　3.5.1　ベルマン最適方程式の適用　　　3.5.2　最適方策を得る　　3.6　まとめ
　4章　動的計画法
　　4.1　動的計画法と方策評価　　　4.1.1　動的計画法の概要　　　4.1.2　反復方策評価を試す　　　4.1.3　反復方策評価の別の実装方法　　4.2　より大きな問題へ　　　4.2.1　GridWorldクラスの実装　　　4.2.2　defaultdictの使い方　　　4.2.3　反復方策評価の実装　　4.3　方策反復法　　　4.3.1　方策の改善　　　4.3.2　評価と改善を繰り返す　　4.4　方策反復法の実装　　　4.4.1　方策の改善　　　4.4.2　評価と改善を繰り返す　　4.5　価値反復法　　　4.5.1　価値反復法の導出　　　4.5.2　価値反復法の実装　　4.6　まとめ
　5章　モンテカルロ法
　　5.1　モンテカルロ法の基礎　　　5.1.1　サイコロの目の和　　　5.1.2　分布モデルとサンプルモデル　　　5.1.3　モンテカルロ法の実装　　5.2　モンテカルロ法による方策評価　　　5.2.1　価値関数をモンテカルロ法で求める　　　5.2.2　すべての状態の価値関数を求める　　　5.2.3　モンテカルロ法の効率の良い実装　　5.3　モンテカルロ法の実装　　　5.3.1　stepメソッド　　　5.3.2　エージェントクラスの実装　　　5.3.3　モンテカルロ法を動かす　　5.4　モンテカルロ法による方策制御　　　5.4.1　評価と改善　　　5.4.2　モンテカルロ法を使った方策制御の実装　　　5.4.3　ε-greedy法（1つ目の修正）　　　5.4.4　固定値\alpha方式へ（2つ目の修正）　　　5.4.5　［修正版］モンテカルロ法を使った方策反復法の実装　　5.5　方策オフ型と重点サンプリング　　　5.5.1　方策オン型とオフ型　　　5.5.2　重点サンプリング　　　5.5.3　分散を小さくするには　　5.6　まとめ
　6章　TD法
　　6.1　TD法による方策評価　　　6.1.1　TD法の導出　　　6.1.2　MC法とTD法の比較　　　6.1.3　TD法の実装　　6.2　SARSA　　　6.2.1　方策オン型のSARSA　　　6.2.2　SARSAの実装　　6.3　方策オフ型のSARSA　　　6.3.1　方策オフ型と重点サンプリング　　　6.3.2　方策オフ型のSARSAの実装　　6.4　Q学習　　　6.4.1　ベルマン方程式とSARSA　　　6.4.2　ベルマン最適方程式とQ学習　　　6.4.3　Q学習の実装　　6.5　分布モデルとサンプルモデル　　　6.5.1　分布モデルとサンプルモデル　　　6.5.2　サンプルモデル版のQ学習　　6.6　まとめ
　7章　ニューラルネットワークとQ学習
　　7.1　DeZeroの基礎　　　7.1.1　DeZeroを使う　　　7.1.2　多次元配列（テンソル）と関数　　　7.1.3　最適化　　7.2　線形回帰　　　7.2.1　トイ・データセット　　　7.2.2　線形回帰の理論　　　7.2.3　線形回帰の実装　　7.3　ニューラルネットワーク　　　7.3.1　非線形なデータセット　　　7.3.2　線形変換と活性化関数　　　7.3.3　ニューラルネットワークの実装　　　7.3.4　レイヤとモデル　　　7.3.5　オプティマイザ（最適化手法）　　7.4　Q学習とニューラルネットワーク　　　7.4.1　ニューラルネットワークの前処理　　　7.4.2　Q関数を表すニューラルネットワーク　　　7.4.3　ニューラルネットワークとQ学習　　7.5　まとめ

　8章　DQN
　　8.1　OpenAI Gym　　　8.1.1　OpenAI Gymの基礎知識　　　8.1.2　ランダムなエージェント　　8.2　DQNのコア技術　　　8.2.1　経験再生（Experience Replay）　　　8.2.2　経験再生の実装　　　8.2.3　ターゲットネットワーク（Target Network）　　　8.2.4　ターゲットネットワークの実装　　　8.2.5　DQNを動かす　　8.3　DQNとAtari　　　8.3.1　Atariのゲーム環境　　　8.3.2　前処理　　　8.3.3　CNN　　　8.3.4　その他の工夫　　8.4　DQNの拡張　　　8.4.1　Double DQN　　　8.4.2　優先度付き経験再生　　　8.4.3　Dueling DQN　　8.5　まとめ
　9章　方策勾配法
　　9.1　最も単純な方策勾配法　　　9.1.1　方策勾配法の導出　　　9.1.2　方策勾配法のアルゴリズム　　　9.1.3　方策勾配法の実装　　9.2　REINFORCE　　　9.2.1　REINFORCEアルゴリズム　　　9.2.2　REINFORCEの実装　　9.3　ベースライン　　　9.3.1　ベースラインのアイデア　　　9.3.2　ベースライン付きの方策勾配法　　9.4　Actor-Critic　　　9.4.1　Actor-Criticの導出　　　9.4.2　Actor-Criticの実装　　9.5　方策ベースの手法の利点　　9.6　まとめ
　10章　さらに先へ
　　10.1　深層強化学習アルゴリズムの分類　　10.2　方策勾配法系列の発展アルゴリズム　　　10.2.1　A3C、 A2C　　　10.2.2　DDPG　　　10.2.3　TRPO、 PPO　　10.3　DQN系列の発展アルゴリズム　　　10.3.1　カテゴリカルDQN　　　10.3.2　Noisy Network　　　10.3.3　Rainbow　　　10.3.4　Rainbow以降の発展アルゴリズム　　10.4　ケーススタディ　　　10.4.1　ボードゲーム　　　10.4.2　ロボット制御　　　10.4.3　NAS（Neural Architecture Search）　　　10.4.4　その他の例　　10.5　深層強化学習の課題と可能性　　　10.5.1　実システムへの適用　　　10.5.2　MDPとして定式化する際のヒント　　　10.5.3　汎用人工知能システム　　10.6　まとめ
　付録A　方策オフ型のモンテカルロ法
　　A.1　方策オフ型のモンテカルロ法の理論　　A.2　方策オフ型のモンテカルロ法の実装
　付録B　nステップのTD法
　付録C　Double DQNの理解
　　C.1　過大評価とは　　C.2　過大評価の解決方法
　付録D　方策勾配法の証明
　　D.1　方策勾配法の導出　　D.2　ベースラインの導出
　おわりに
　参考文献
　著者紹介
　奥付

Content preview from ゼロから作るDeep Learning ❹ ―強化学習編

3章ベルマン方程式

前章では「2マスのグリッドワールド」という問題に取り組みました。その問題では、環境が決定論的であり、さらにはエージェントも決定論的に行動すると仮定しました。そのため、バックアップ線図は図3-1の左側のように1直線に伸びます。

図3-1　決定論的なバックアップ線図（左図）と確率的なバックアップ線図（右図）

図3-1の左図のように、バックアップ線図が1直線に伸びる場合は、前章の方法（数式による計算）で状態価値関数を求めることはできました。しかし、MDPは確率的な振る舞いをする場合も考えられます。その場合のバックアップ線図は、図3-1の右図のように広がりを持って伸びていきます。残念ながら、そのような状態価値関数は前章の手計算で求めることはできません。

本章では、図3-1の右図のような状況においても状態価値関数を求めることを目標とします。そのためのキーとなるのがベルマン方程式（Bellman Equation）です。ベルマン方程式は、MDPで成り立つ最も重要な方程式であり、多くの強化学習のアルゴリズムにおいて重要な基礎を与えてくれます。

3.1　ベルマン方程式の導出

ここではベルマン方程式の導出を行います。まずはその下準備として、簡単な例を見ながら確率と期待値について復習します。その後にベルマン方程式の導出へと進みます。すでに確率や期待値について自信のある方は、「3.1.1　確率と期待値（ベルマン方程式のための下準備）」は読み飛ばして「3.1.2　ベルマン方程式の導出 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9784873119755Other

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

ゼロから作るDeep Learning ❹ ―強化学習編

by 斎藤康毅

3章ベルマン方程式

3.1　ベルマン方程式の導出

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.