8章プレイする

2018年3月、David HaとJürgen Schmidhuberは“World Models”(世界モデル)という論文†1を発表しました。この論文は、環境そのものではなく、そのモデルが持つ生成系が作り出した夢の中で実験を行うことを可能にし、そこでモデルを訓練することで、モデルが特定のタスクを実行する方法を学習できることを示しました。これは、強化学習などの他の機械学習の手法と一緒に適用することで、生成モデリングをどのように使えば実践的な問題を解けるかを示す快挙なのです。

[†1] David Ha and Jürgen Schmidhuber, "World Models," 27 March 2018, https://arxiv.org/abs/1803.10122

このアーキテクチャの重要な構成要素は生成モデルです。このモデルは、現在の状態と行動から次に可能となる状態の確率分布を構築することができます。ランダムに動き回ってその環境の基礎をなす物理法則の理解を高めることで、このモデルは、完全にその環境の内部表現の中で、新しいタスクに対しゼロから自分自身を訓練できるようになります。こうすることで、テストに用いられた両方のタスクで世界最高のスコアを記録したのです。

この章では、このモデルを詳細に調べ、みなさんがこの驚くべき最先端技術の独自のモデルを作成できるようになる方法を示します。

原論文をもとに、車ができるだけ速くトラックを周回できる方法を学習する強化学習アルゴリズムを構築します。ここでは、環境として2次元のコンピュータシミュレーションを用います。この手法は、実環境ではテストにコストがかかりすぎたり、実現が難しい実世界のシナリオにも適用できます。

このモデルを作成し始める前に、強化学習とOpenAI ...

Get 生成 Deep Learning ―絵を描き、物語や音楽を作り、ゲームをプレイする now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.