12章世界モデル

12章の目標
  • 強化学習(reinforcement learning:RL)の基本を学ぶ。
  • 世界モデルのRLへのアプローチの中で、生成モデリングがどのように使用できるかを理解する。
  • 変分オートエンコーダ(VAE)を訓練し、低次元の潜在空間から「環境」(後述)を取り出す方法を理解する。
  • 潜在変数を予測するMDN-RNN(mixture density network - recurrent neural network:混合密度ネットワーク–再帰型ニューラルネットワーク)の訓練プロセスを説明する。
  • CMA-ES(covariance matrix adaptation evolution strategy:共分散行列適応進化戦略)を使用して、環境内で知的な行動を取ることができるコントローラを訓練する。
  • 訓練されたMDN-RNNそれ自体を環境として使用し、エージェントが、現実の環境ではなく、自分の夢の中でコントローラを訓練できるようにする方法を理解する。

この章では、近年の生成モデルの最も興味深い応用例の1つ、いわゆる世界モデルでの使用について紹介します。

12.1 イントロダクション

2018年3月、David HaとJürgen Schmidhuberは「World Models」(世界モデル)という論文†1を発表しました。この論文は、実際の実験環境そのものではなく、そのモデルが持つ生成系が作り出した夢の環境の中で実験を行うことを可能にし、そこでモデルを訓練することで、モデルが特定のタスクを実行する方法を学習できることを示しました。これは、生成モデリングを強化学習などの他の機械学習の手法と一緒に適用することで、生成モデリングをどのように使えば実践的な問題を解けるかを示す快挙なのです。 ...

Get 生成 Deep Learning 第2版 ―絵を描き、物語や音楽を作り、ゲームをプレイする now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.