
183
附录A
关于数据不合理的有效性:
为什么数据越多越好
本附录复制自作者的同名博客文章(做了轻微的改动和校正)。
谷歌的
Halevy
、
Norvig
和
Pererira
在“
The Unreasonable Eectiveness of Data
”一文中声
称,当语料库达到互联网规模时,有趣的事情就会发生:
基于大量数据的简单模型胜过基于较少数据的精确模型。
在这篇文章中以及
Norvig
的一场更详尽的技术讲座中
,他们论证了,当语料库包含亿万个
或百万亿个训练样本或单词时,即使是基于基本独立假设的非常简单的模型,也比用更少
的数据得到的复杂模型(比如那些根据精心设计的本体建立的模型)要强。不过他们没怎
么解释
为何
数据越多越好,本附录就来探究其中原因。
我认为有几类问题和原因可以解释为什么数据越多越好。
A.1
最近邻类型问题
第一类是
最近邻类型问题
。
Halevy
等人给出了一个例子: