第2章 数据预处理
在分析数据之前,通常需要对其形式进行标准化处理。本章描述这些处理的过程。
2.1 数据类型
数据可以划分为不同的类型。数据类型不仅标识数据的形式,也标识可以对数据执行哪种操作。例如,算数运算可以对数值型数据执行,但不能对文本数据执行。
数据类型也决定了数据需要的计算机存储空间大小。例如,像3.14这样的十进制数值通常存储在一个32位(4字节)内存中,而像https://google.com这样的网址则占用160位内存。
下面是本书将要处理的数据主要类型,对应的Java类型显示在括号中:
- 数值类型
- 整数(
int
) - 小数(
double
)
- 整数(
- 文本类型
- 字符串(
String
)
- 字符串(
- 对象类型
- 日期(
java.util.Date
) - 文件(
java.io.File
) - 一般对象(
Object
)
- 日期(
2.2 变量
计算机科学将变量视为数据值的存储位置。Java通过对变量声明特定的类型来引入变量。例如,考虑下列语句:
String lastName;
该语句声明变量lastName
具有类型String
。
另外,声明变量时还可以使用具体值进行初始化,就像这样:
double temperature = 98.6;
该语句可以这样理解,命名为temperature
的存储空间中包含double
类型值98.6
。
结构化变量还可以在一个语句中同时进行声明和初始化:
int[] a= {88, 11, 44, 77, 22};
这个语句声明int
数组类型的变量int[]
包含5个指定元素。
2.3 数据点和数据集
数据分析很容易将数据视为信息点。例如在一组个人信息中,每个数据点包含某个人的信息。考虑下列数据点:
("Adams", "John","M", 26, 704601929) ...
Get Java数据分析指南 now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.