Skip to Content
数据驱动力:企业数据分析实战
book

数据驱动力:企业数据分析实战

by Carl Anderson
April 2021
Intermediate to advanced
210 pages
6h 3m
Chinese
Posts & Telecom Press
Content preview from 数据驱动力:企业数据分析实战
183
附录A
关于数据不合理的有效性:
为什么数据越多越好
本附录复制自作者的同名博客文章(做了轻微的改动和校正)。
谷歌的
Halevy
Norvig
Pererira
在“
The Unreasonable Eectiveness of Data
”一文中声
称,当语料库达到互联网规模时,有趣的事情就会发生:
基于大量数据的简单模型胜过基于较少数据的精确模型。
在这篇文章中以及
Norvig
的一场更详尽的技术讲座中
,他们论证了,当语料库包含亿万个
或百万亿个训练样本或单词时,即使是基于基本独立假设的非常简单的模型,也比用更少
的数据得到的复杂模型(比如那些根据精心设计的本体建立的模型)要强。不过他们没怎
么解释
为何
数据越多越好,本附录就来探究其中原因。
我认为有几类问题和原因可以解释为什么数据越多越好。
A.1
 最近邻类型问题
第一类是
最近邻类型问题
Halevy
等人给出了一个例子:
184
附录
A
James Hays
Alexei A. Efros
解决了场境完整化的任务:从照片中删掉不想看到
的汽车或前任,并用大量其他图像中的像素填充空缺,如图
A-1
1
所示。
A-1Hays Efros 的图 1
Norvig
绘制了如图
A-2
所示的原理图。
解决方案的质量
数据量
几千 几百万 几十亿
A-2 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

Java数据科学实战

Java数据科学实战

Michael R. Brzustowicz, PhD
精通模块化JavaScript

精通模块化JavaScript

Nicolás Bevacqua

Publisher Resources

ISBN: 9787115560179