第7章 金融市场中的强化学习
人类并不是从数百万个有标签的实例中学习。相反,我们通常是从与行动相关的正面或负面经验中学习。孩子们碰过热炉子一次后,就再也不会再碰它了。从经验及其奖惩中学习是强化学习(Reinforcement Learning,RL)背后的核心思想。强化学习能让我们在完全没有数据的情况下学习复杂的制定决策的规则。通过这种方式,人工智能领域出现了多项令人瞩目的突破,例如在2016年AlphaGo击败了围棋世界冠军。
在金融领域,强化学习正在取得惊人的进展。在2017年的“Machine learning in investment management”报告中,Man AHL[1]描述了外汇和期货市场中增强系统在订单路由中的应用。订单路由是量化金融中的经典问题。在下单时,基金公司通常选择不同的经纪人,并在不同的时间点下单,订单路由的目标是尽可能以低成本完成订单。这也意味着最小化对市场的影响,因为大订单可能提高股票价格。
传统算法有着各式各样的名字,比如Sniper或Guerilla等,它们依靠历史数据和智能工程获得统计特征。基于强化学习的路由系统则能够通过自己学习来获得最优的路由策略,其优点是这样的系统能够适应不断变化的市场。也正因如此,它在诸如外汇市场等数据丰富的市场中的表现优于传统方法。
然而,强化学习还可以做得更多。OpenAI的研究人员使用强化学习来预测代理人何时合作或对抗。与此同时,DeepMind公司的研究人员还利用强化学习对大脑额叶皮层的运作和多巴胺激素的作用进行研究,并获得了新的见解。
本章将使用一个简单的接水果游戏来对强化学习进行入门介绍。在介绍更高级的强化学习应用程序之前,我们将深入研究强化学习的基础理论。本章的例子需要进行可视化呈现,但在Kaggle内核中却不容易渲染呈现。为了简化它们,示例算法也没有针对GPU的使用进行专门优化。因此,最好在本地机器上运行这些示例。 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access