第9章 使用Python进行社交媒体挖掘

这一章探讨的是社交媒体。虽然社交媒体与NLTK/NLP不是直接相关的,但是社交数据也是非结构化文本数据的丰富来源。因此,作为NLP爱好者,我们应该掌握技巧,处理社交数据。本章试图探索从一些最流行的社交媒体平台收集有关资料的方法。本章将讨论如何使用Python的API从Twitter、Facebook等社交媒体平台收集数据。在社交媒体挖掘的上下文中,本章将探讨一些最常见的用例,如热门话题、情感分析等。

在前几章中,读者已经学习了在自然语言处理和机器学习概念下的众多课题。在本章中,我们将尝试围绕社交数据,建立一些应用程序。我们也为读者提供一些最佳做法,来处理社交数据,并从图形可视化的上下文中,观察社交数据。

在社交媒体底层有一幅图。大多数基于图的问题都可以确切地阐述为信息流问题和找到图中最繁忙的节点。一些问题(如热门话题、影响者检测和情感分析)就是此类的一些示例。使用其中的一些用例,以这些社交网络为中心,构建一些非常酷炫的应用程序。

在本章结束之前,读者能够实现以下目标。

  • 使用API,从任何社交媒体中收集数据。
  • 学会如何使用结构化格式明确阐述数据,以及如何构建一些惊为天人的应用程序。
  • 可视化社交媒体数据,并获得有意义的见解。

本章最重要的目标是在一些最常见的社交网络中收集数据。我们将主要看看Twitter和Facebook,并试图为读者提供相关的API以及如何有效使用API来获得相关数据的详细信息。我们还将讨论刮取数据的数据字典,以及如何使用我们迄今为止学到的一些知识,建立一些很酷的应用程序。

我们从一个最流行、最开放并且完全公开的社交媒体开始。这意味着,你实际上可以收集所有的Twitter媒体流,但是需要付费。不过,可以免费获得1%的媒体流。在商业的上下文中,Twitter拥有非常丰富的如公共民意和公共新起主题此类的信息资源。 ...

Get Python和NLTK实现自然语言处理 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.