Apêndice A. Sobre a eficácia irracional dos dados: Porque é que mais dados são mais dados é melhor?
Nota
Este anexo é reproduzido (com ligeiras modificações e correcções) de um post, com o mesmo nome, do blogue do autor.
No artigo "The unreasonable effectiveness of data,"1 Halevy, Norvig e Pererira, todos da Google, argumentam que acontecem coisas interessantes quando os corpora atingem a escala da Web:
modelos simples e muitos dados, confunde-se com modelos mais elaborados baseados em menos dados.
Nesse artigo e na palestra técnica mais pormenorizada apresentada por Norvig, demonstram que, quando os corpora atingem centenas de milhões ou triliões de amostras ou palavras de treino, os modelos muito simples com pressupostos básicos de independência podem superar modelos mais complexos, como os baseados em ontologias cuidadosamente elaboradas com dados mais pequenos. No entanto, os autores deram relativamente poucas explicações sobre a razão pela qual mais dados são melhores. Neste apêndice, quero tentar explicar-te isso.
Proponho que existam várias classes de problemas e razões para que mais dados sejam melhores.
Problemas do tipo vizinho mais próximo
Os primeiros são problemas do tipo vizinho mais próximo. Halevy et al. dão-te um exemplo:
James Hays e Alexei A. Efros abordaram a tarefa de preenchimento de cenas: remover um automóvel ou ex-cônjuge indesejado e inestético de uma fotografia e preencher o fundo com pixéis retirados de um grande corpus de outras fotografias.