第6章 生成模型的应用
生成模型可以生成新数据。在某种程度上,这与我们在前几章中讨论的模型完全相反。图像分类器能接受高维的输入(也就是图片),并输出一个低维的输出(如图片的内容),但生成模型会以完全相反的方式处理。例如,它可能会根据内容的描述来绘制图像。
生成模型仍处于其发展过程中的实验阶段,目前主要用于图像。然而,事实证明它们是很重要的模型,已经有一些场景使用了生成模型,生成模型可能会在行业内引起轩然大波。
2017年,DeepFakes开始出现在互联网上[1]。在DeepFakes中,生成对抗网络(Generative Adversarial Network,GAN)被用于生成名人的视频。本章后面讨论生成网络。2016年,研究人员展示了一个可以生成视频的系统,系统生成的视频内容是让人说任何指定的话语,包括近乎真实的嘴部运动和面部表情。
这个技术并非是完全负面的,尤其是生成模型的数据稀疏时仍有一些积极的应用。如果是这样的话,生成模型可以生成用于训练其他模型的真实数据。生成模型能够“翻译”图像。一个典型的例子是将卫星图像转换成街道地图,另一个例子是从网站截图生成对应的代码。它们甚至可以用来对抗机器学习模型中的不公平,我们将在第9章中看到这一点。
在金融领域,数据常常是稀疏的。回想一下第2章中的诈骗案例,我们将诈骗交易从交易元数据中分类出来。我们发现在数据集中并没有太多的诈骗数据,因此模型很难检测到何时发生了诈骗。这种情况下,工程师通常会做出假设并创建人工数据。然而,机器学习模型本身可以做到这一点,在这个过程中,它们甚至可能会找到一些有助于发现诈骗的特性。
在算法交易中,数据经常在仿真器中生成。如果想知道具体的算法在全球抛售时表现如何,就需要模拟相关场景。由于现实中并没有那么多全球性抛售,量化分析公司的工程师们花了大量的时间来模拟抛售。这些仿真器往往会因为工程师的经验和他们对抛售的感觉而产生偏差。然而,如果模型能够学习到抛售的本质,并创建无数个描述抛售的数据,那会怎么样? ...
Get 金融中的机器学习 now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.