
103
第 6 章
数据获取与存储
找到要研究的第一个数据集,可能是向回答问题这一目标迈出的最重要一步。在第
1
章里
我们说过,你首先应该花点时间将问题细化,让问题足够具体,能够找到关于问题的好数
据,同时问题又要足够宽泛,可以让你和其他人都感兴趣。
另一种可能是,你已经找到了感兴趣的数据集,但无法提出令人信服的问题。如果你不了
解也不信任数据来源,应该花点时间调查一下。问问你自己:数据是否有效?是否更新
过?我能否信任当前以及未来的更新和出版物?
本章我们会讲到,你可以将数据保存在什么地方,以供后续使用。如果你不熟悉数据库的
话,我们也会讲到数据库的使用场景和使用方法,并演示如何创建简单数据库来存储数
据。如果你已经很熟悉数据库,或者你的数据源就是一个数据库的话,我们会讲到
Python
中基本的数据库连接结构。
如果你还没决定使用哪个数据集的话,不必担心。下面用的几个例子,你都可以在本书仓
库(
https://github.com/jackiekazil/data-wrangling
)中找到。
我们强烈建议你带着几个问题阅读本书,这样你才能更好地在实践中学习。
这些问题可能是你一直想研究的问题,也可能是与本书所探索数据相关的问
题。即使你选取的问题很简单,在编写代码中学习也是最好的学习方法。
6.1
并非所有数据生而平等
对于遇到的每一个数据集,尽管我们愿意相信其真实性和数据质量,但并非所有数据都能
符合我们的预期。即使是你目前使用的数据集,在深入研究之后也可能是无用且无效的数
据源。对于你面临的数据处理问题,在寻求自动化解决方案 ...