第1章 如何听起来像数据科学家

不管你从事哪个行业——IT、时尚、食品或者金融,数据都在影响着你的生活和工作。在本周的某个时刻,你也许会参与一场关于数据的讨论。新闻媒体正在越来越多地报道数据泄露、网络犯罪,以及如何利用数据窥视我们的生活。但为什么是现在?为什么今天这个时代是数据相关产业的温床?

在19世纪,世界处于工业时代(industrial age)。人类通过伟大的机械发明和工业探索世界。工业时代的领袖们,比如亨利·福特,认识到通过这些机器可以创造巨大的市场机会,赚取前所未有的利润。当然,工业时代有利也有弊。在我们将大量商品送到消费者手中时,人类也开始了和污染的斗争。

在19世纪,我们非常擅长制造大型机器。但到了20世纪,我们的目标是让机器变得更小、更快。工业时代已经结束,取而代之的是信息时代(information age)。为了更好地理解事物的运转情况,我们开始使用机器收集和存储我们自身与周围环境的各种信息(数据)。

从1940年开始,像ENIAC(被认为是最早的计算机之一)这样的机器被用来计算和运行之前从未计算过的数学方程、运行模型和模拟,如图1.1所示。

..\17-1272图\B05260_01_01.tif

图1.1 ENIAC计算机

我们终于有了比人类更擅长运算数字的像样的实验室助手!和工业时代一样,信息时代也有利有弊。信息时代的好处是人类取得了科技发明的非凡成就,比如电视和移动电话;坏处虽然没有全球性污染那样严重,但仍然留给我们一个21世纪的难题——过多的数据。

是的,信息时代在数据收集领域的高速发展,让电子化数据的产量爆炸式增长!据估算,在2011年,我们产生了1.28×10 ...

Get 数据科学原理 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.