第15章 情感分析与聊天机器人

到目前为止,我们已经具备了启动一个基本文本分析任务所需的技能,下面可以进阶到更复杂的项目中。有两个常见的文本分析应用涉及前面介绍过的很多概念,例如情感分析和聊天机器人。事实上,前面的章节中已经介绍过这两个应用所需要的技术,本章会引导读者搭建这两种应用程序。

首先要说明的是,本书不会提供完整的可执行代码,而是把重点放在为读者呈现项目中应用的具体技术。本章介绍的主题如下:

  • 情感分析;
  • 数据挖掘;
  • 聊天机器人。

情感分析从某种程度上讲也是一种文本分类或者文档分类,其分类特征是文本的情感倾向。我们可以把情感理解为感觉或者对特定事物的一种观点。比如,某人说“这部电影棒极了”,那么代表他对这部电影的评价是正面的;但是如果换成“这部电影糟透了”,那么评价就是负面的。从大的层面来讲情感分为积极和消极两种,当然也可以扩展到多种细分的情感,比如愤怒、悲伤、高兴,甚至是关心。所以,情感分析要做的事情,就是把情感类型作为分类信号的分类任务。

前面的章节探讨过一个情感分析的例子,并为读者展示了如何把Keras和spaCy集成到深度学习工作流中。情绪分析通过分配积极情绪和消极情绪的概率分布来进行。事实上,即使是只使用Keras的例子,也都是基于情绪进行分类的,但是我们将该问题作为一个简单的分类任务而不是情绪分析任务来处理。spaCy的例子更为明确,我们给每个文档分配了许多情感,然后进行分类。

基于如何处理情绪信息,我们可以使用不同的方式处理问题,尽管大部分情感分析方法都是基于文档所属类别的概率这一核心思想,但在其他细节处理方面有很多方法。本书强烈建议任何情感分析都要基于实际的业务场景数据去建模,如果简单地使用电影评论数据训练的算法来进行推特上推文的情感分析,会得到不理想的结果。 ...

Get 自然语言处理与计算语言学 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.