
173
第 9 章
数据探索和分析
既然已经花费了一些时间获取和清洗数据,你可以开始做数据分析了!不要对结果有太多
期望,这对于你的数据探索过程来说很重要。你的问题可能对于某个答案来说太宽泛,也
可能没有结论性的答案。回想一下你在第一节自然科学课程中学到的有关假设和结论的知
识。最好用同样的方法来进行数据探索,并且要理解,在数据分析中你可能不会得到一个
清晰的结论。
尽管如此,只是去探索数据并发现数据中没有趋势或者趋势不符合预期,这就很有趣。如
果一切都如我们所愿,数据处理会变得有些无聊。我们已学会少一点期待,多一点探索。
当你开始分析和探索数据时,可能会意识到需要更多的或不同种类的数据。
在你更深入地定义想要回答的问题,并检验数据告诉你什么的过程中,这是
很常见的一种情况,你需要接受。
现在也非常适合回顾一下你最初发现数据集时所提出的问题。你想知道什么?是否还有其
他相关的问题有助于你的探索?这些问题可能会指出方向,告诉你在哪能找到故事。即使
没有,这些问题也会指引你发现另外一些有趣的问题。即使你不能回答最初的问题,也能
够对话题有更深入的了解,并发现新的问题去探索。
在这一章,我们会学习一些新的用于数据探索和分析的
Python
库,并且继续应用我们在前
两章学到的清洗数据的知识。我们会学习如何合并数据集,探索数据,得到有关数据集中
关系的统计学结论。
9.1
探索数据
在前两章你已经学习了解析和清洗数据,想必已经很熟悉用
Python
来与数据交互了。现在