Skip to Content
Criar uma organização orientada para os dados
book

Criar uma organização orientada para os dados

by Carl Anderson
April 2025
Intermediate to advanced
302 pages
8h 7m
Portuguese (Portugal, Brazil)
O'Reilly Media, Inc.
Book available
Content preview from Criar uma organização orientada para os dados

Apêndice A. Sobre a eficácia irracional dos dados: Porque é que mais dados são mais dados é melhor?

Nota

Este anexo é reproduzido (com ligeiras modificações e correcções) de um post, com o mesmo nome, do blogue do autor.

No artigo "The unreasonable effectiveness of data,"1 Halevy, Norvig e Pererira, todos da Google, argumentam que acontecem coisas interessantes quando os corpora atingem a escala da Web:

modelos simples e muitos dados, confunde-se com modelos mais elaborados baseados em menos dados.

Nesse artigo e na palestra técnica mais pormenorizada apresentada por Norvig, demonstram que, quando os corpora atingem centenas de milhões ou triliões de amostras ou palavras de treino, os modelos muito simples com pressupostos básicos de independência podem superar modelos mais complexos, como os baseados em ontologias cuidadosamente elaboradas com dados mais pequenos. No entanto, os autores deram relativamente poucas explicações sobre a razão pela qual mais dados são melhores. Neste apêndice, quero tentar explicar-te isso.

Proponho que existam várias classes de problemas e razões para que mais dados sejam melhores.

Problemas do tipo vizinho mais próximo

Os primeiros são problemas do tipo vizinho mais próximo. Halevy et al. dão-te um exemplo:

James Hays e Alexei A. Efros abordaram a tarefa de preenchimento de cenas: remover um automóvel ou ex-cônjuge indesejado e inestético de uma fotografia e preencher o fundo com pixéis retirados de um grande corpus de outras fotografias.

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

Engenharia de software para cientistas de dados

Engenharia de software para cientistas de dados

Catherine Nelson

Publisher Resources

ISBN: 9798341643017