Skip to Content
PythonによるAIプログラミング入門 ―ディープラーニングを始める前に身につけておくべき15の基礎技術
book

PythonによるAIプログラミング入門 ―ディープラーニングを始める前に身につけておくべき15の基礎技術

by Prateek Joshi, 相川 愛三
March 2019
Intermediate to advanced
424 pages
5h 18m
Japanese
O'Reilly Japan, Inc.
Content preview from PythonによるAIプログラミング入門 ―ディープラーニングを始める前に身につけておくべき15の基礎技術

15章強化学習

本章では、強化学習に関する次の事柄について学びます。

  • 強化学習の前提条件
  • 強化学習と教師あり学習の違い
  • 強化学習の実例
  • 強化学習の構成要素
  • 環境設定
  • 学習エージェントの構築

15.1 強化学習の前提条件

学習という概念は人工知能の基本原理です。機械が学習の過程を理解できれば、機械は自分で学習できるようになります。人間なら周囲の環境を観察し、やりとりすることで学習できます。新しい場所に行けば、ざっと見渡して周りで何が起こっているのかを調べます。そこで何をすべきかを教えてくれる人はいませんが、環境との関係を構築することによって、さまざまな事象を起こす原因に関する情報がたくさん集まります。原因と結果について、どの行動がどの結果を導くのかについて、目標達成のために何をしなければならないのかについて学習するのです。

人間は日常生活のあらゆる場面でこの前提条件を使っています。周囲に関する知識をすべて集め、今度は周囲への応答方法を学びます。演説者の例を考えましょう。優れた演説者は公の場で演説する際に、発言に対して聴衆がどのように反応しているのかに気を配ります。聴衆の反応が悪いときには、演説者はすぐさま話題を変えて、聴衆がついてくることを確認します。おわかりのとおり、演説者は自らの行動を通じて環境に影響を与えようとしています。演説者は、なんらかの「目標」を達成するための行動をする目的で、聴衆とのやりとりから「学習」します。これこそが人工知能の最も基本的な概念のひとつです。このことを念頭において、強化学習を説明します。

強化学習(reinforcement learning)とは、報酬を最大化するために、行動を学習し、状況を行動に写像する処理のことを表します。機械学習のほとんどのパラダイムにおいて、学習エージェントはなんらかの目標を達成するための行動を指示されています。一方、強化学習においては、学習エージェントはなすべき行動を指示されておらず、試行錯誤によってどの行動が最大の報酬をもたらすのかを発見しなければなりません。行動はすぐに得られる即時報酬に影響するだけでなく、次の状況における遅延報酬にも影響します。 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

AirBnbBlueOriginElectronic ArtsHomeDepotNasdaqRakutenTata Consultancy Services

QuotationMarkO’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.
Julian F.
Head of Cybersecurity
QuotationMarkI wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.
Addison B.
Field Engineer
QuotationMarkI’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.
Amir M.
Data Platform Tech Lead
QuotationMarkI'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.
Mark W.
Embedded Software Engineer

You might also like

行動を変えるデザイン ―心理学と行動経済学をプロダクトデザインに活用する

行動を変えるデザイン ―心理学と行動経済学をプロダクトデザインに活用する

Stephen Wendel, 武山 政直, 相島 雅樹, 反中 望, 松村 草也
詳説 イーサネット 第2版

詳説 イーサネット 第2版

Charles E. Spurgeon, Joann Zimmerman, 三浦 史光, 豊沢 聡

Publisher Resources

ISBN: 9784873118727Other