第7章 情感分析——我很高兴

情感分析或情绪生成是在NLP中的其中一个任务。将它定义为确定字符序列背后情绪的过程。可以使用它来确定演讲者或个人是否以一种快乐或悲伤的情绪,或以一种中性的表述方式,来表达文本思想。

本章包括以下主题。

  • 情感分析。
  • 使用NER的情感分析。
  • 使用机器学习的情感分析。
  • NER系统的评价。

将情感分析定义为对自然语言执行的一项任务。此处,在使用自然语言表达的句子或单词上执行计算,确定它们是否表达了正面、负面或中性的情绪。由于情感分析提供了所表达文本的信息,因此这是一种主观的任务。可以将情感分析定义为分类问题,在这个分类问题中,分类可能具有两种类型——二元分类(正或负),也可能是多元分类(正面、负面或中性)。情感分析也称为文本情感分析。这是确定文本背后所蕴含情感或情绪的文本挖掘方法。当情感分析与主题挖掘相结合时,它称为主题-情感分析。也可以使用词典来执行情感分析。词典可以是特定领域的词典,也可以是通用的词典。词典包含正面表达方式、负面表达方式、中性表达方式和停用词列表。当出现测试句子时,可以在词典中执行简单的查找操作。

一个示例单词列表为——英语单词的情感规范(Affective Norms for English Words,ANEW)。这是在佛罗里达大学发现的英文单词列表。这个英文单词列表由表达了优势度(dominance)、评价值(valence)和唤起度(arousal)的1034个单词组成,是由Bradley和Lang制作的。构建这个单词列表出于学术(而非研究)目的。其他变体有DANEW(荷兰语ANEW)和SPANEW(西班牙语ANEW)。

AFINN由2477个单词组成(早期有1468个单词)。这个单词列表是由Finn Arup ...

Get Python和NLTK实现自然语言处理 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.