Skip to Content
机器学习实战:基于Scikit-Learn、Keras 和TensorFlow (原书第2 版)
book

机器学习实战:基于Scikit-Learn、Keras 和TensorFlow (原书第2 版)

by Aurélien Géron
October 2020
Intermediate to advanced
693 pages
16h 26m
Chinese
China Machine Press
Content preview from 机器学习实战:基于Scikit-Learn、Keras 和TensorFlow (原书第2 版)
强化学习
525
注意,可能根本没有任何正奖励。例如,智能体可能在迷宫中四处走动,在每个步骤中
都获得负奖励,因此最好尽快找到出口!强化学习还有许多其他适合的任务,例如自动
驾驶汽车、推荐系统、在网页上放置广告或控制图像分类系统应集中注意力的地方。
18.2 策略搜索
软件智能体用来确定其动作的算法称为其策略。该策略可以是一个神经网络,将观察作
为输入并输出要采取的行动(见图 18-2)。
智能体 环境
策略
奖励和观察
动作
18-2:使用神经网络策略进行强化学习
该策略可能是你能想到的任何算法,并且不必具有确定性。实际上,在某些情况下,甚
至不需要观察环境!例如,考虑一个机器人吸尘器,其奖励是在 30 分钟内吸走的灰尘
量。它的策略可能是以每秒概率
p
向前移动,或以概率 1
-
p
随机向左或向右旋转。旋转
角将是
-
r
+
r
之间的随机角度。由于此策略涉及某种随机性,因此称为随机策略。机
器人具有不确定的轨迹,这保证了它最终将到达任何位置并拾起所有灰尘。问题是,在
30 分钟内会吸走多少灰尘?
你将如何训练这样的机器人?你可以调整两个策略参数:概率
p
和角度范围
r
。一种
可能的学习算法可能是为这些参数尝试许多不同的值,然后选择效果最佳的组合(见
18-3)。这是策略搜索的示例,在这种情况下使用暴力解决方法。当策略空间太大时
(通常是这种情况),以这种方式查找一组好的参数就像大海捞针一样。
探索策略空间的另一种方法是使用遗传算法。例如,你可以随机创建第一代 100 条策略
并进行尝试,然后“杀死”80 条最差的策略
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

算法技术手册(原书第2 版)

算法技术手册(原书第2 版)

George T.Heineman, Gary Pollice, Stanley Selkow
Go语言编程

Go语言编程

威廉·肯尼迪
管理Kubernetes

管理Kubernetes

Brendan Burns, Craig Tracey

Publisher Resources

ISBN: 9787111665977