15章強化学習
本章では、強化学習に関する次の事柄について学びます。
- 強化学習の前提条件
- 強化学習と教師あり学習の違い
- 強化学習の実例
- 強化学習の構成要素
- 環境設定
- 学習エージェントの構築
15.1 強化学習の前提条件
学習という概念は人工知能の基本原理です。機械が学習の過程を理解できれば、機械は自分で学習できるようになります。人間なら周囲の環境を観察し、やりとりすることで学習できます。新しい場所に行けば、ざっと見渡して周りで何が起こっているのかを調べます。そこで何をすべきかを教えてくれる人はいませんが、環境との関係を構築することによって、さまざまな事象を起こす原因に関する情報がたくさん集まります。原因と結果について、どの行動がどの結果を導くのかについて、目標達成のために何をしなければならないのかについて学習するのです。
人間は日常生活のあらゆる場面でこの前提条件を使っています。周囲に関する知識をすべて集め、今度は周囲への応答方法を学びます。演説者の例を考えましょう。優れた演説者は公の場で演説する際に、発言に対して聴衆がどのように反応しているのかに気を配ります。聴衆の反応が悪いときには、演説者はすぐさま話題を変えて、聴衆がついてくることを確認します。おわかりのとおり、演説者は自らの行動を通じて環境に影響を与えようとしています。演説者は、なんらかの「目標」を達成するための行動をする目的で、聴衆とのやりとりから「学習」します。これこそが人工知能の最も基本的な概念のひとつです。このことを念頭において、強化学習を説明します。
強化学習(reinforcement learning)とは、報酬を最大化するために、行動を学習し、状況を行動に写像する処理のことを表します。機械学習のほとんどのパラダイムにおいて、学習エージェントはなんらかの目標を達成するための行動を指示されています。一方、強化学習においては、学習エージェントはなすべき行動を指示されておらず、試行錯誤によってどの行動が最大の報酬をもたらすのかを発見しなければなりません。行動はすぐに得られる即時報酬に影響するだけでなく、次の状況における遅延報酬にも影響します。 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access