
2
|
第
1
章
最后的结论,并且清洗和转换数据的过程很艰难并且耗时费钱。我经常听说,数据科学家将
80%
的时间用于获取
、清洗及准备数据,
20%
的时间用于数据的建模、分析、可视化以及得
出结论。以我的经验来看,这是非常合理的。第
2
章会详细介绍数据质量的方方面面。
即使你确实获取了高质量数据,哪怕是大量的高质量数据,也仅仅是拥有了数据而已。不
管你听过多少来自市场或业界的大肆宣扬,依然不能使你变成数据驱动型的人。有些人,
特别是大数据供应商和服务提供商,不遗余力地将大数据描述成包治百病的灵丹妙药,
似乎你收集了所有可能的数据,其中就一定有引领公司走向成功的“钻石”。然而不争的
事实是,单单拥有大量数据是不够的。少量干净、可靠的数据远比海量垃圾数据更有挖掘
价值。
1.2
数据访问
前提条件
2
:数据必须可以访问和查询。
拥有准确、及时和相关的数据依然不足以称为数据驱动。数据必须具有以下特点。
可连接
在必要时,数据的形式必须可以和其他企业数据结合起来。可选的数据形式很多,比
如关系型数据库、
NoSQL
存储或者
Hadoop
。要借助合适的工具来完成工作
。例如,
Warby Parker
公司的财务分析师以前一直使用
Excel
表格计算交给高管的关键指标
。他
们从不同数据源获取大量的原始数据,然后运行
VLOOKUPS
(用于发现数据中交叉引
用的
Excel
函数)连接它们
,以便从较高层次理解这些数据值。最初,这种方式运行得
很好。但是,随着公司销售额和客户基数的迅速增长,数据总量越来越大,
Excel
文档
接近
300MB
,计算机的最大内存已承受不住 ...