Skip to Content
Aufbau von Pipelines für maschinelles Lernen
book

Aufbau von Pipelines für maschinelles Lernen

by Hannes Hapke, Catherine Nelson
September 2024
Intermediate to advanced
366 pages
9h 58m
German
O'Reilly Media, Inc.
Book available
Content preview from Aufbau von Pipelines für maschinelles Lernen

Kapitel 4. Datenvalidierung

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

In Kapitel 3 haben wir besprochen, wie wir Daten aus verschiedenen Quellen in unsere Pipeline einspeisen können. In diesem Kapitel wollen wir nun damit beginnen, die Daten zu verarbeiten, indem wir sie validieren, wie in Abbildung 4-1 dargestellt.

Data Validation as part of ML Pipelines
Abbildung 4-1. Datenvalidierung als Teil von ML-Pipelines

Daten sind die Grundlage für jedes Modell des maschinellen Lernens, und die Nützlichkeit und Leistung des Modells hängen von den Daten ab, die zum Trainieren, Validieren und Analysieren des Modells verwendet werden. Wie du dir vorstellen kannst, können wir ohne robuste Daten keine robusten Modelle erstellen. Umgangssprachlich hast du vielleicht schon einmal den Ausdruck "Garbage in, garbage out" gehört, was bedeutet, dass unsere Modelle nicht funktionieren, wenn die zugrunde liegenden Daten nicht kuratiert und validiert sind. Genau das ist der Zweck des ersten Arbeitsschritts in unserer Pipeline für maschinelles Lernen: die Validierung der Daten.

In diesem Kapitel erläutern wir zunächst die Idee der Datenvalidierung und stellen dir dann ein Python-Paket aus dem TensorFlow Extended Ökosystem namens TensorFlow Data Validation (TFDV) vor. Wir zeigen dir, wie du das Paket in deinen Data Science-Projekten einrichten kannst, ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

Trainingsdaten für maschinelles Lernen

Trainingsdaten für maschinelles Lernen

Anthony Sarkis
Maschinelles Lernen für hochriskante Anwendungen

Maschinelles Lernen für hochriskante Anwendungen

Patrick Hall, James Curtis, Parul Pandey

Publisher Resources

ISBN: 9781098191528Supplemental Content