Skip to Content
数据驱动力:企业数据分析实战
book

数据驱动力:企业数据分析实战

by Carl Anderson
April 2021
Intermediate to advanced
210 pages
6h 3m
Chinese
Posts & Telecom Press
Content preview from 数据驱动力:企业数据分析实战
2
1
最后的结论,并且清洗和转换数据的过程很艰难并且耗时费钱。我经常听说,数据科学家将
80%
的时间用于获取
、清洗及准备数据,
20%
的时间用于数据的建模、分析、可视化以及得
出结论。以我的经验来看,这是非常合理的。第
2
章会详细介绍数据质量的方方面面。
即使你确实获取了高质量数据,哪怕是大量的高质量数据,也仅仅是拥有了数据而已。不
管你听过多少来自市场或业界的大肆宣扬,依然不能使你变成数据驱动型的人。有些人,
特别是大数据供应商和服务提供商,不遗余力地将大数据描述成包治百病的灵丹妙药,
似乎你收集了所有可能的数据,其中就一定有引领公司走向成功的“钻石”。然而不争的
事实是,单单拥有大量数据是不够的。少量干净、可靠的数据远比海量垃圾数据更有挖掘
价值。
1.2
 数据访问
前提条件
2
:数据必须可以访问和查询。
拥有准确、及时和相关的数据依然不足以称为数据驱动。数据必须具有以下特点。
可连接
在必要时,数据的形式必须可以和其他企业数据结合起来。可选的数据形式很多,比
如关系型数据库、
NoSQL
存储或者
Hadoop
。要借助合适的工具来完成工作
。例如,
Warby Parker
公司的财务分析师以前一直使用
Excel
表格计算交给高管的关键指标
。他
们从不同数据源获取大量的原始数据,然后运行
VLOOKUPS
(用于发现数据中交叉引
用的
Excel
函数)连接它们
,以便从较高层次理解这些数据值。最初,这种方式运行得
很好。但是,随着公司销售额和客户基数的迅速增长,数据总量越来越大,
Excel
文档
接近
300MB
,计算机的最大内存已承受不住 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

Java数据科学实战

Java数据科学实战

Michael R. Brzustowicz, PhD
精通模块化JavaScript

精通模块化JavaScript

Nicolás Bevacqua

Publisher Resources

ISBN: 9787115560179