
数据获取与存储
|
113
我们还汇总了下面几章会用到的几个数据集。我们将这些数据集都放在数据仓库中,以便
后续使用。
前面已经探讨了如何发现问题并搜索资源,下面我们来看一下数据存储。
6.6
数据存储
找到数据之后,你需要把数据保存下来!有些时候,你得到的数据是干净的、易于访问
的、机器可读的格式。其他时候,你可能想用另一种方法来保存数据。当你第一次从
CSV
或
PDF
中提取数据的时候,我们会讲到几种数据存储工具,或者,你可以等数据完全处理
并清洗完成后再进行存储(我们会在第
7
章讲到数据清洗的内容)。
我应该把数据保存在哪里
?
最开始的问题是,要将数据保存到其他地方,还是留在最开始提取的文件中。这有一
系列问题可以帮你回答这个问题。
•
你能否用简单的文档阅读器(例如
Microsoft Word
)打开数据集,同时不会造成计
算机死机?
•
数据看起来是否具有良好的标签和结构,让你可以方便提取出每一段信息?
•
如果需要不止一台电脑来处理数据的话,数据的保存和移动是否方便?
•
能否利用
API
实时访问数据,这样你就能在线获取需要的数据?
如果所有问题的回答都是“是”,你可能不必担心保存数据的问题。如果你的回答有
“是”有“否”的话,可能需要将数据保存在数据库或平面文件(
flat file
)中。如果所
有问题的回答都是“否”,继续读下去,我的朋友,我们为你提供了解决方法!
假设你的数据集各不相同——这里的一个文件,那里的一份报告。其中一些很容易下载和
访问,但其他的你可能需要从网络上复制或抓取。第
7
章和第
9
章中会讲到如何清洗与合 ...