第9章 Python中的社交媒体挖掘
这一章来讨论一下社交媒体。虽然这方面的内容与NLTK/NLP没有直接关系,但社交数据也是一种非常丰富的非结构化文本的数据源。作为NLP爱好者,我们应该掌握一些处理社交数据的技能。本章将会探讨如何从一些目前最受欢迎的社交媒体平台中收集到相关数据。还会介绍如何利用Python API来从Twitter、Facebook等社交媒体中收集数据。还会探讨一些在社交媒体挖掘领域中最常见的用例,例如热门话题、情绪分析等。
我们在前面的章节中已经学习了许多与自然语言处理和机器学习相关的概念性话题。本章将会试着围绕一些社交数据来构建一些应用程序。本章还提供了一些针对社交数据处理的最佳实践,并以可视化图形的方式来查看这些社交数据。
社交媒体都会存在一个基础性的图结构,而大多数基于图结构的问题都可以被表述成某种信息流问题,并找出该图结构中最繁忙的节点。像热门话题、影响力检测以及情绪分析这些问题都是很好的例子。下面就通过这些具体的用例,围绕社交网络来构建一些酷炫的应用程序吧。
在阅读完本章之后,我们希望你能掌握以下内容。
- 知道如何用相关API收集任意社交媒体中的数据。
- 学会如何用某种结构化格式来表述数据,并以此构建出一些很棒的应用程序。
- 可以为社交数据绘制可视化图形,并能对其进行有意义的观察。
9.1 数据收集
本章最重要的目标是要介绍如何在一些业界最常见的社交网络之间进行数据收集。本章主要以Twitter和Facebook为实验对象,为你详细、充分地介绍与这两个社交媒体有关的API信息,以及如何有效地利用它们来获取相关数据。此外,还将讲解与废弃数据相关的数据字典,以及如何利用目前所学到的知识来构建一些酷炫的应用程序。
先从目前最流行、最开放的且完全公开的社交媒体开始入手。这实际上就意味着可能要去收集整个Twitter流中的信息,但这是要付费的,但可以免费捕获其中百分之一的信息。在商业背景下,对于那些想要了解公众情绪、新兴话题这类信息的人来说,Twitter是一个非常丰富的信息资源。 ...
Get NLTK应用开发指南 now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.