
1
第 1 章
Python
简介
无论你是一名记者、分析师,还是初出茅庐的数据科学家,选择这本书可能是因为你想学
习如何用编程来分析数据,得出结论,并将结论清楚地传达给别人。你可能会用报告、图
表或归纳统计的方式来展示你的结论。重要的是,你想讲述一个故事。
传统的故事讲述或新闻报道往往使用单一的故事来描述总体结论或趋势。在这种故事中,
数据成为了相对次要的部分。然而,其他讲故事的人,比如
Christian Rudde
[
Datacylsm
(
http://dataclysm.org/
)的作者,
OkCupid
的创始人之一]认为数据本身应该是故事的重点。
首先,你需要确定想要研究的主题。你可能对研究不同人或群体的沟通习惯感兴趣,这时
你可以从一个具体的问题入手,例如在网络上被人们广为分享的信息都有哪些特点。又或
许你可能对棒球的历史统计数据感兴趣,并想弄清楚一个问题:这些数据能否表明棒球运
动随时间发生了变化。
确定了感兴趣的领域之后,你需要寻找数据,以进一步探索这一主题。想研究人类行
为,你可以从
Twitter API
(
https://dev.twitter.com/overview/api
)中获取数据,研究人们在
Twitter
上分享的内容。如果想深入研究棒球历史,你可以使用
Sean Lahman
的棒球数据库
(
http://www.seanlahman.com/baseball-archive/statistics/
)。
Twitter
和棒球数据集都属于综合的大型数据集。为了回答你的具体问题,应把这些数据集