第5章 用自然语言处理解析文本数据

文艺复兴科技公司(Renaissance Technologies)是有史以来最成功的量化对冲基金之一,该公司的联合首席执行官Peter Brown曾在IBM工作。在IBM工作期间,他将机器学习技术应用于自然语言处理,这种跨界现象并非偶然。

正如我们在前几章中所讨论的,在当今世界,信息驱动金融行业的发展,而信息的最重要源头就是书面语和口语。询问任何一位金融专业人士,他们到底把时间花在了什么地方。你会发现,他们的大部分时间都花在了阅读上。这个过程涵盖许多事情,从阅读自动收报机的标题,到阅读公司年报(Form 10-K)、金融出版物、各种分析师报告。阅读的内容不胜枚举。自动处理这些信息可以提升交易速度,增加交易所涉猎信息的广度,同时降低交易的整体成本。

自然语言处理(Natural Language Processing,NLP)正被广泛应用于金融领域。例如,保险公司越来越希望自动处理索赔,零售银行则试图提升顾客服务效率并为客户提供更好的产品。文本的理解正日益成为金融领域机器学习的首选应用场景。

过去,NLP依赖于语言学家们创造的手工规则。如今,神经网络正在取代语言学家的地位,神经网络能够学习复杂的、往往很难编码的语言规则。

在本章中,你将学习如何用Keras创建功能强大的自然语言模型,并且学会如何使用spaCy NLP库。

本章的重点如下。

  • 针对你自己定制化的应用,微调spaCy模型。
  • 找出句子的部分内容,映射句子的语法结构。
  • 使用诸如词袋模型和TF-IDF等技术进行分类。
  • 理解如何使用Keras函数式API构建更高级的模型。
  • 训练具有注意力机制的模型,使用序列到序列模型(sequence to sequence,seq2seq)来翻译语句。 ...

Get 金融中的机器学习 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.