第7章 情感分析:我很快乐

情感分析(或者叫情感生成)是NLP中的众多任务之一,其被定义为确定一个字符序列背后所隐含的情感信息的过程。情感分析可用于确定表达文本思想的演讲者或人们的心情是愉快的还是悲伤的,或者仅代表一次中性的表达。

本章将包含以下主题:

  • 情感分析简介。
  • 使用NER执行情感分析。
  • 使用机器学习执行情感分析。
  • NER系统的评估。

情感分析可以认为是一个在自然语言上执行的任务。这里,对用自然语言表达的句子或单词执行了计算,以便确定它们是在表达积极的、消极的还是中性的情感。情感分析是一个主观的任务,因为它提供了所表达的文本的有关信息。情感分析可以认为是一个分类问题,有两种分类类型,即二元分类(积极的或消极的)和多元分类(积极的、消极的或中性的)。情感分析也被称作文本情感分析,这是一种文本挖掘的方法,通过该方法我们可以知晓文本隐含的情感或情绪。当我们将情感分析与主题挖掘相结合时,就可以称之为主题情感分析。通过使用词典可以执行情感分析。词典可以是特定领域的抑或是通用类型的,词典可以包含一个由积极的表达、消极的表达、中性的表达和停止词组成的列表。当出现一个测试的句子时,可以通过该词典来执行简单的查找操作。

单词列表的一个例子是标准英语情感词汇库(Affective Norms for English Words,ANEW)。这个库是一个英语单词列表,是由Bradley和Lang在佛罗里达大学创建的,它包含了涉及情绪的三个维度(优势度、愉悦度、激活度)的1034个单词。当初构建这个单词列表是为了学术目的并不是为了研究的目的。其他变体有DANEW (Dutch ANEW)和SPANEW (Spanish ANEW)。

AFINN由2477个单词组成(更早为1468个单词)。这个单词列表是由Finn ...

Get 精通Python自然语言处理 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.