第3章 数据科学的5个步骤
我们在上一章介绍了数据的类型,以及处理不同类型数据的方法,为进一步学习数据科学做好了准备。本章,我们将重点介绍数据科学的第三步——探索数据(data exploration)。我们将使用Python的Pandas和Matplotlib包探索不同的数 据集。
3.1 数据科学简介
很多人问我数据科学(data science)和数据分析(data analytic)的最大区别是什么。有的人认为两者没有区别,有的人则认为两者千差万别。我认为,尽管两者确实存在很多不同之处,但最大的不同在于数据科学严格遵循结构化、一步一步的操作过程,保证了分析结果的可靠性。
和其他科学研究一样,这些过程必须被严格执行,否则分析结果将不可靠。再直白一点,对于外行的数据科学家,严格遵循这些过程将能够快速获得准确结果。反之,如果没有清晰的路线图,则分析结果很难得到保证。
虽然这些步骤更多是写给业余分析师的指引,但它们同样是数据科学家,甚至更严格的商业分析和学术分析的基础。每一位数据科学家都理解这些步骤的重要意义,会在实践过程中严格遵守它们。
3.2 5个步骤概览
数据科学的5个必备步骤分别是:
(1)提出有意思的问题;
(2)获取数据;
(3)探索数据;
(4)数据建模;
(5)可视化和分享结果。
首先,我们从宏观上了解以上5个步骤。
3.2.1 提出有意思的问题
这是我最喜欢的一步。作为一个创业者,我经常问自己(和他人)很多有意思的问题。我像对待头脑风暴会议一样对待这一步。现在开始写下问题,不要关心回答这些问题所需的数据是否存在。这样做的原因有两个。第一,你不会希望在没有找到数据之前,就被自己的偏见影响。第二,获取数据可能涉及公开渠道和私有渠道,因此不会轻松和显而易见。
你可能想到一个问题,然后自言自语说:“我打赌没有这样的数据可以帮到我们!”然后就将它从问题列表中删除。千万不要这样做,把它留在你的问题列表中! ...
Get 数据科学原理 now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.