第9章 获取和定位Twitter数据(基于Python)

本章包含以下主要内容。

  • 创建Twitter的应用。
  • 了解Twitter API v1.1。
  • 获取粉丝和好友信息。
  • 获取Twitter用户信息。
  • 避免Twitter速度限制。
  • 存储JSON数据至硬盘。
  • 搭建MongoDB存储Twitter数据。
  • 利用PyMongo存储用户信息到MongoDB。
  • 探索用户地理信息。
  • 利用Python绘制地理分布图。

在本章中,我们将利用RESTful风格的网络服务API进行社交媒体数据分析。Twitter作为一种微博式的社交网络,拥有大量可用于数据挖掘尤其是文本挖掘的无价数据流。另外,Twitter还提供了极为优秀的API服务,后文我们将学习如何利用Python与其进行交互。我们将利用Twitter的API来获取社交网络关系并收集JSON数据,然后分别利用传统的文件存储方式和目前流行的NoSQL数据库MongoDB方式存储这些数据。我们将分析并确定这些社交关系中的地理位置,并将位置数据可视化。

通过本章的学习,你将注意到这类API在设计和使用上的一些模式。与API进行交互是数据科学中一个非常重要的主题。更好地理解它们可以帮你开启一个全新的数据世界,向你提供海量的数据分析机会。

API是应用编程接口(Application Programming Interface)的缩写。在传统计算机科学中,它表示那些可以让不同软件程序间彼此交互的方法。目前,越来越多的API是一种互联网API——通过互联网在不同的软件和网络应用(如Twitter)之间共享数据。获取并管理数据是数据科学过程中重要的一环,了解如何使用这些API是从互联网上获取数据不可或缺的一步。

RESTful API是一种众多互联网应用所广泛使用的特殊API。尽管我们可以忽略很多技术术语,但是REST是必须要介绍的一个概念。REST意为表述性状态传递(Representational ...

Get 数据科学实战手册(R+Python)(第2版) now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.