第11章 情感分析中的异常检测

回顾2016年,我们一定会记得,这是一个发生了许多重要地缘政治事件的年份,从英国脱欧、英国脱欧公投,到许多受人爱戴的名人的去世,包括歌手大卫·鲍威(David Bowie)突然去世(见第6章和第7章)。然而,今年最引人注目的事件可能是美国总统选举及其最终结果——唐纳德·特朗普当选总统。这场选举运动将被人们铭记,尤其是它史无前例地使用了社交媒体,并且唤起了用户的激情,他们中的大多数人都通过使用标签来表达他们的感受:要么是正面的,比如#MakeAmericaGreatAgain或#StrongerTogether;要么是负面的,例如#DumpTrump或#LockHerUp。由于本章是关于情感分析的,所以选举是理想的用例。然而,我们不是试图预测结果本身,而是将目标放在使用实时Twitter馈送来检测在美国大选期间的异常推文。

在这一章里,我们将探讨以下主题。

  • 实时批量获取Twitter数据。
  • 使用斯坦福NLP提取情感。
  • 在Timely中存储情感时间序列。
  • 使用Word2Vec从140个字中提取特征。
  • 介绍图遍历性和最短路径的概念。
  • 训练KMeans模型以检测潜在的异常。
  • 使用TensorFlow中的Embedding Projector可视化模型。

,数百万美国公民前往投票站投票选举下一任美国总统,计数几乎立即开始,尽管直到稍晚的某个时间才正式确认,但预测结果在第二天早上就已经是众所周知了。让我们从重大事件发生的前几天开始研究,以便可以在准备阶段保留一些背景信息。虽然无法准确知道会提前发现什么,但我们知道,鉴于Twitter在大规模宣传方面的影响力,它将在政治评论中发挥非常大的作用,所以尽快开始收集数据是很有意义的。事实上,数据科学家有时可能会将此视为一种直觉,即一种奇怪且往往令人兴奋的想法,迫使我们在没有明确计划或绝对理由的情况下开始做一些事情,我们只是感觉它会有所回报。实际上,这种方法至关重要,因为考虑到制定和实现这样一个计划所需的正常时间以及事件的短暂性,重大新闻事件可能会发生(参见第10章)、新产品可能已经发布或者股票市场可能呈现不同的趋势(见第12章)。如果按部就班制定计划,那么到此时,原始数据集可能已经不再可用。 ...

Get 精通Spark数据科学 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.