
395
第 13 章
数据分析案例
本章,我们来看一些真实世界的数据集。对于每个数据集,我们会用之前介绍的方法,
从原始数据中提取有意义的内容。展示的方法也适用于其他数据集。本章包含各式各样
的示例数据集,可以用本书学习过的工具进行练习。
示例数据集可以在本书的
GitHub
仓 库(
https://github.com/wesm/pydata-book
)找到。
如果读者无法访问
GitHub
,还可以访问
Gitee
上的镜像(
https://gitee.com/wesmckinn/
pydata-book
)。
13.1
来自
1.USA.gov
的
Bitly
数据
2011
年,短网址服务商
Bitly
(
https://bitly.com/
)跟美国政府网站
USA.gov
(
https://
www.usa.gov/
)达成了合作,提供了一份从
.gov
或
.mil
生成短网址的用户那里收集的匿
名数据。在
2011
年,除实时数据之外,还可以下载文本文件形式的每小时快照。
2022
年,这项服务已经关闭,但我们保存一份数据用于本书的案例。
以每小时快照为例,文件中各行的格式为
JSON
,这是一种常用的
Web
数据格式。例
如,如果我们只读取某个文件中的第一行,那么结果应该是下面这样: