9章方策勾配法

これまで私たちはQ学習やSARSA、モンテカルロ法などを学びました。それらの手法は、大別すれば価値ベースの手法（Value-based Method）に分類されます。ここで言う「価値」とは、行動価値関数（Q関数）や状態価値関数を指します。価値ベースの手法は、価値関数をモデル化し、価値関数を学習します。そして、価値関数を“経由”して方策を得ます。


	価値ベースの手法では、一般化方策反復というアイデアに基づいて最適方策を見つけることが多く行われます。具体的には、価値関数の評価と方策を改善するというプロセスを繰り返すことで、徐々に最適方策に近づきます。

価値ベースの手法の他に、価値関数を経由せずに方策を直接表す手法も考えられます。これが方策ベースの手法（Policy-based Method）です。中でも、方策をニューラルネットワークなどでモデル化し、勾配を使って方策を最適化する手法は方策勾配法（Policy Gradient Method）と呼ばれます。

方策勾配法に基づくアルゴリズムは様々な手法が提案されています。本章では初めに、最も単純な方策勾配法を見ていきます。そして、その単純な勾配法を改善する流れで、REINFORCEと呼ばれるアルゴリズムを導出します。さらにREINFORCEを改善する流れで、ベースライン付きREINFORCE、そしてActor-Criticという手法を導出します。