11章バンディットアルゴリズムによる強化学習入門
本章では、バンディットアルゴリズムの紹介と簡単な実装を行います。
これまでの章では機械学習を行うためのデータが十分にそろっていることを前提にしていました。しかし現実には、十分なデータはなく、データを集めるには費用1がかかることが良くあります。こういった環境においては、教師あり学習ではなく、教師データを収集しながら学習を行っていく強化学習という手法が用いられます。
- 1
ここでいう費用は、「金銭」「時間」「機会」「誤った選択をしたことによるマイナスの効果」などを指します。
強化学習とは、ある環境におかれたエージェントが、不完全な情報を元に行動を選択し、情報を蓄積していく。そして、その行動の結果報酬を得て、最終的に報酬の総和が最大になるようする。というものです。本章で紹介するバンディットアルゴリズムは、強化学習の中では比較的簡単な部類の問題です。そのため、本章を通じて不完全な情報での意思決定はどのように行うと良いのか、という強化学習の基本的な考え方を掴んでもらえれば幸いです。
強化学習とバンディットアルゴリズムの違いは、その行動を行った結果、環境がどのように変化していくのかを取り扱うか否かにあります。囲碁や将棋でたとえるなら、その瞬間の1手読みを行うのがバンディットアルゴリズム、未来の状態まで加味して3手、5手、7手と読んでいくのが強化学習になります。
バンディットアルゴリズムとは、Multi-Armed Bandit Problem(多腕バンディット問題)を解くためのアルゴリズムです。アームとはこの問題の元となったスロットマシン2から来ています。得られる報酬の期待値が異なる複数台のスロットマシンが存在するときに、どのスロットマシンを選択するともっとも儲かるのか? ...
Get 仕事ではじめる機械学習 第2版 now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.