Kapitel 4. Trainingsdaten
Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com
In Kapitel 3 haben wir den Umgang mit Daten aus der Systemperspektive behandelt. In diesem Kapitel gehen wir darauf ein, wie man Daten aus der Perspektive der Datenwissenschaft behandelt. Trotz der Bedeutung von Trainingsdaten für die Entwicklung und Verbesserung von ML-Modellen sind die ML-Lehrpläne stark auf die Modellierung ausgerichtet, die von vielen Praktikern als der "spaßige" Teil des Prozesses angesehen wird. Ein modernes Modell zu erstellen ist interessant. Sich tagelang mit einer riesigen Menge schlecht formatierter Daten herumzuschlagen, die nicht einmal in den Speicher deines Computers passen, ist frustrierend.
Daten sind unübersichtlich, komplex, unberechenbar und potenziell tückisch. Wenn sie nicht richtig gehandhabt werden, können sie leicht deine gesamte ML-Operation untergehen lassen. Aber genau aus diesem Grund sollten Datenwissenschaftler/innen und ML-Ingenieure/innen lernen, wie man gut mit Daten umgeht, um uns später Zeit und Kopfschmerzen zu ersparen.
In diesem Kapitel gehen wir auf Techniken ein, um gute Trainingsdaten zu erhalten oder zu erstellen. Unter Trainingsdaten werden in diesem Kapitel alle Daten verstanden, die in der Entwicklungsphase von ML-Modellen verwendet werden, einschließlich der verschiedenen Splits, die für Training, Validierung und Test verwendet werden (Train-, Validierungs- ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access