第2章 数据预处理

在分析数据之前,通常需要对其形式进行标准化处理。本章描述这些处理的过程。

数据可以划分为不同的类型。数据类型不仅标识数据的形式,也标识可以对数据执行哪种操作。例如,算数运算可以对数值型数据执行,但不能对文本数据执行。

数据类型也决定了数据需要的计算机存储空间大小。例如,像3.14这样的十进制数值通常存储在一个32位(4字节)内存中,而像https://google.com这样的网址则占用160位内存。

下面是本书将要处理的数据主要类型,对应的Java类型显示在括号中:

  • 数值类型
    • 整数(int
    • 小数(double
  • 文本类型
    • 字符串(String
  • 对象类型
    • 日期(java.util.Date
    • 文件(java.io.File
    • 一般对象(Object

计算机科学将变量视为数据值的存储位置。Java通过对变量声明特定的类型来引入变量。例如,考虑下列语句:

String lastName;

该语句声明变量lastName具有类型String

另外,声明变量时还可以使用具体值进行初始化,就像这样:

double temperature = 98.6;

该语句可以这样理解,命名为temperature的存储空间中包含double类型值98.6

结构化变量还可以在一个语句中同时进行声明和初始化:

int[] a= {88, 11, 44, 77, 22};

这个语句声明int数组类型的变量int[]包含5个指定元素。

数据分析很容易将数据视为信息点。例如在一组个人信息中,每个数据点包含某个人的信息。考虑下列数据点:

("Adams", "John","M", 26, 704601929) ...

Get Java数据分析指南 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.