Anhang A. Über die unvernünftige Effektivität von Daten: Warum sind mehr Daten besser?

Hinweis

Dieser Anhang wurde (mit leichten Änderungen und Korrekturen) aus einem gleichnamigen Beitrag im Blog des Autors übernommen.

In dem Artikel "Die unvernünftige Effektivität von Daten"1 Halevy, Norvig und Pererira, alle von Google, argumentieren, dass interessante Dinge passieren, wenn Korpora die Größe des Webs erreichen:

einfache Modelle und viele Daten übertrumpfen aufwändigere Modelle, die auf weniger Daten basieren.

In diesem Papier und in dem detaillierteren Vortrag von Norvig zeigen sie, dass bei Korpora mit Hunderten von Millionen oder Billionen von Trainingsbeispielen oder Wörtern sehr einfache Modelle mit grundlegenden Unabhängigkeitsannahmen komplexere Modelle, wie z. B. solche, die auf sorgfältig erstellten Ontologien basieren, mit kleineren Daten übertreffen können. Es wurde jedoch relativ wenig darüber berichtet, warum mehr Daten besser sind. In diesem Anhang möchte ich versuchen, diese Frage zu klären.

Ich schlage vor, dass es mehrere Klassen von Problemen und Gründe gibt, warum mehr Daten besser sind.

Probleme des Typs "Nächster Nachbar

Die erste sind Probleme des Typs "Nächster Nachbar". Halevy et al. geben ein Beispiel:

James Hays und Alexei A. Efros beschäftigten sich mit der Aufgabe, eine Szene zu vervollständigen: ein unerwünschtes, unansehnliches Auto oder den Ex-Ehepartner aus einem Foto zu entfernen und den Hintergrund mit Pixeln aus einem großen Korpus anderer ...

Get Schaffung einer datengesteuerten Organisation now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.