Kapitel 4. Datenvalidierung
Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com
In Kapitel 3 haben wir besprochen, wie wir Daten aus verschiedenen Quellen in unsere Pipeline einspeisen können. In diesem Kapitel wollen wir nun damit beginnen, die Daten zu verarbeiten, indem wir sie validieren, wie in Abbildung 4-1 dargestellt.
Abbildung 4-1. Datenvalidierung als Teil von ML-Pipelines
Daten sind die Grundlage für jedes Modell des maschinellen Lernens, und die Nützlichkeit und Leistung des Modells hängen von den Daten ab, die zum Trainieren, Validieren und Analysieren des Modells verwendet werden. Wie du dir vorstellen kannst, können wir ohne robuste Daten keine robusten Modelle erstellen. Umgangssprachlich hast du vielleicht schon einmal den Ausdruck "Garbage in, garbage out" gehört, was bedeutet, dass unsere Modelle nicht funktionieren, wenn die zugrunde liegenden Daten nicht kuratiert und validiert sind. Genau das ist der Zweck des ersten Arbeitsschritts in unserer Pipeline für maschinelles Lernen: die Validierung der Daten.
In diesem Kapitel erläutern wir zunächst die Idee der Datenvalidierung und stellen dir dann ein Python-Paket aus dem TensorFlow Extended Ökosystem namens TensorFlow Data Validation (TFDV) vor. Wir zeigen dir, wie du das Paket in deinen Data Science-Projekten einrichten kannst, ...