第2章 数据的类型
在第1章,我们简单介绍了什么是数据科学和为什么这个领域如此重要。下面我们将介绍数据的类型,主要包括以下主题:
- 结构化数据(structured data)和非结构化数据(unstructured data)。
- 定量数据(quantitative data)和定性数据(qualitative data)。
- 数据的4个尺度。
我们将通过案例深入讨论每个主题,演示数据科学家如何观察和处理不同类型的数据。本章的目的是帮助你熟悉数据科学中的基本概念。
2.1 数据的“味道”
在数据科学领域,理解不同“味道”的数据非常重要。数据类型不仅决定了分析方法和可得出的结论,而且数据的结构化/非结构化、定量/定性属性也反映了现实世界中被测量对象的重要特征。
我们将研究以下3种最常见的分类方式:
- 结构化和非结构化(有时也称作有组织和无组织)。
- 定量和定性。
- 数据的4个尺度。
在学习本章内容之前,首先需要理解我们对数据(data)一词的使用。在上一章,我将数据宽泛地定义为“数据是信息的集合”。这样做的原因是宽泛的定义对于我们将数据分为不同类型是有必要的。
其次,当我们讨论数据类型时,既可能指数据集某个特征列的数据类型,也可能指整个数据集的数据类型。我将给出清晰的说明。
2.2 为什么要进行区分
和学习统计学、机器学习等有趣的内容比起来,学习数据类型好像没有什么价值。但毫不夸张地说,这是数据科学过程中最重要的步骤之一。
假设我们正在研究某个国家的选举结果。在人口数据集中有一列叫“种族”,为了节省存储空间,该列使用标识号代替种族信息。比如用数字7表示白人,用数字2代表亚裔美国人。如果分析师没有意识到7和2并不是传统意义上的数值,将在分析时犯下致命错误——根据7大于2,得出白人“大于”亚裔美国人的荒谬结论。 ...
Get 数据科学原理 now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.