第1章 数据科学导论

数据分析是对数据进行组织、清洗、转换和建模的过程,目的是获取有价值的信息和新知识。数据分析、商业分析、数据挖掘、人工智能、机器学习、知识发现和大数据,这些术语也可以用来描述相似的过程。这些领域之间的区别更多体现在应用领域,而非基础本质。有人认为,这些领域都是数据科学新学科的一部分。

在从组织化数据中获取有效信息的过程中,关键步骤是应用计算机科学算法进行管理。而本书的重点就是这些算法。

数据分析是一个历久弥新的领域。它起源于数值方法和统计分析的数学领域,可以追溯至18世纪。近年来,随着互联网愈加普遍和海量数据逐渐可得,许多数据科学方法受到越来越多的关注,随后我们将研究这些算法。

在第1章中,我们来讲述数据分析史上的一些著名案例。这些案例可以帮助我们理解这门科学的重要性和未来前景。

数据与文明一样历史悠久,甚至年代更为古老。1.7万年前,法国拉斯科的原始居民为了纪念他们最伟大的狩猎胜利,尝试以洞穴壁画的形式记录这些胜利。这些记录为我们提供了旧石器时代人类活动的数据。从现代意义上讲,这些数据并没有被分析,也没有为我们提供新知识。但是,这些数据的存在本身就证明了人类需要使用数据保存自己的思想。

5000年前,美索不达米亚的苏美尔人在泥板上记录了更为重要的数据。那些楔形文字记录了与日常商业交易相关的大量会计数据。为了运用数据,苏美尔人不仅发明了文字,还发明了人类文明史上的第一个数字系统。

在1086年,威廉国王(译者注:1066年,诺曼底公爵威廉征服英格兰)为了确定王室和臣民的土地与财产范围,下令收集大量数据。因为这是对人们(物质)生活的最终盘点,因此被称为“末日审判书”。威廉国王分析这些数据,并确定了随后几个世纪中土地的所有权和纳税义务。

Get Java数据分析指南 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.