Kapitel 5. Daten- und Merkmalsaufbereitung

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Algorithmen für maschinelles Lernen sind nur so gut wie ihre Trainingsdaten. Um gute Daten für das Training zu erhalten, müssen Daten und Merkmale vorbereitet werden.

Bei der Datenaufbereitung geht es darum, die Daten zu beschaffen und sicherzustellen, dass sie gültig sind. Dies ist ein mehrstufiger Prozess1 der die Datenerhebung, die Anreicherung, die statistische Berechnung, die Schema-Validierung, das Bereinigen von Ausreißern und verschiedene Validierungstechniken umfassen kann. Nicht genügend Daten zu haben, kann zu einer Überanpassung, dem Fehlen signifikanter Korrelationen und vielem mehr führen. Wenn du dich bemühst, während der Datenaufbereitung mehr Datensätze und Informationen über jede Stichprobe zu sammeln, kann das Modell erheblich verbessert werden.2

Die Feature-Vorbereitung (manchmal auch Feature-Engineering genannt) bezieht sich auf die Umwandlung der rohen Eingabedaten in Features, die das Machine-Learning-Modell verwenden kann.3 Eine schlechte Merkmalsvorbereitung kann dazu führen, dass wichtige Zusammenhänge verloren gehen, z. B. ein lineares Modell mit nicht linearen Termen, die nicht erweitert werden, oder ein Deep-Learning-Modell mit inkonsistenterBildausrichtung.

Kleine Änderungen bei der Daten- und Merkmalsaufbereitung können zu deutlich unterschiedlichen Modellergebnissen führen. ...

Get Kubeflow für maschinelles Lernen now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.