第10章 获取和定位Twitter数据(Python)

本章介绍如下内容。

  • 创建Twitter应用
  • 了解Twitter API v1.1
  • 获取粉丝和朋友信息
  • 获取Twitter用户信息
  • 避免Twitter速度限制
  • 存储JSON数据至硬盘
  • 安装MongoDB
  • 利用PyMongo将用户信息存入MongoDB
  • 探索用户地理信息
  • 利用Python绘制地理分布图

本章中我们将会利用网络服务的RESTful API来获取社交媒体数据并进行分析。Twitter作为一种微博式的社交网络,拥有大量具有数据挖掘价值尤其是文本挖掘价值的数据流。Twitter还提供了极为便利的API服务。本章将会介绍利用Python调用这些API。我们将会利用Twitter的API来获得社交网络关系,将内容以JSON的格式保存在传统的文件存储以及新近流行的NoSQL数据库MongoDB中。接下来将进一步分析这些社会关系中的地理关联并将这种关联进行可视化。在本章中,你将会发现这一类API在设计和使用上的一些模式。使用这些API是数据科学中一个重要的主题。更好地理解它们,可以帮助你解开一个全新的数据世界,让你接触更加海量的数据并进行分析。

API是应用编程接口(Application Programming Interface)的简写。在传统计算机科学中,它表示那些可以让不同软件程序之间相互调用的方法。现如今,越来越多的API是一种互联网API——通过互联网在不同的软件和网络应用(如Twitter)之间共享数据。获取并管理数据是数据科学过程中重要的一环,了解如何使用这些API是从互联网获取数据不可或缺的一步。

RESTful API是一种被众多互联网应用所广泛使用的特殊API。我们可以忽略很多技术术语,但是REST是必须被介绍的。REST意为表现状态传输(Representational ...

Get 数据科学实战手册 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.