
1.9
教師なし学習の応用例
23
●
株式取引。エージェントは株の売買を行い(アクション)、利益か損益を受け取る(報酬)。
●
ビデオゲームやボードゲーム。エージェントはゲーム上の動作を行い(アクション)、勝ったり負
け た り す る ( 報 酬 )。
●
自動運転車。エージェントは車両に動きを指示し(アクション)、自動車は、コース上に留まった
りクラッシュしたりする(報酬)。
●
機械制御。エージェントは環境の中で何らかの動作を行い(アクション)、課題を達成したり失敗
し た り す る ( 報 酬 )。
最も単純な強化学習問題は、有限問題すなわち、環境の状態の数が有限で、任意の状態におけるア
クションの数も有限で、報酬の数も有限である場合だ。エージェントが行うアクションが、現在の環境
に渡され、環境の次の状態を決定する。エージェントのゴールは長期間での報酬の総計を最大化する
ことだ。このような種類の問題を有限マルコフ決定過程(
MDP
:
Markov Decision Processes
)と 呼 ぶ 。
しかし、実世界では物事はそれほど単純ではない。報酬は既知で静的なものではなく、未知で動的
だ。このような未知の報酬関数を見出し、可能な限り近似するために教師なし学習を用いることができ
る。この近似された報酬関数を使うことで、実行中全体での報酬の総計を増やすことができる。
1.8
半教師あり学習
機械学習は教師あり学習と教師なし学習の
2
つに大別されるが、この
2
種類のアルゴリズムを
1
つの
機械学習パイプライン