Kapitel 9. Daten für die Prüfung
Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com
Im vorangegangenen Kapitel hast du gesehen, wie du eine der beiden Abhängigkeiten beim Testen von Datenpipelines ersetzen kannst: Schnittstellen zu externen Diensten. Damit hast du einen Teil des Weges zu kosteneffizienten Tests zurückgelegt. In diesem Kapitel erfährst du, wie du die zweite in Kapitel 7 erwähnte Abhängigkeit ersetzen kannst: externe Datenquellen. Anstatt eine Live-Datenquelle zum Testen zu verwenden, erfährst du, wie du sie durch synthetische Daten ersetzen kannst.
In diesem Kapitel findest du eine Menge toller Techniken, um synthetische Daten zu erstellen. Doch bevor du deine IDE startest, solltest du abwägen, ob es das Richtige ist, eine Datenabhängigkeit durch synthetische Daten zu ersetzen. Zu Beginn dieses Kapitels erfährst du, wie du die Wahl zwischen Live- und synthetischen Daten für deine Tests triffst und welche Vorteile und Herausforderungen beide Ansätze mit sich bringen.
Der Rest des Kapitels befasst sich mit verschiedenen Ansätzen zur Erzeugung synthetischer Daten. Den ersten Ansatz, die manuelle Datengenerierung, kennst du wahrscheinlich, wenn du für Unit-Tests ein paar Zeilen gefälschter Daten erstellst.
Die Erkenntnisse aus der manuellen Datenerstellung helfen dir, genaue Modelle für die automatische Datengenerierung zu erstellen, die ich als Nächstes behandeln werde. Außerdem erfährst ...
Get Kosteneffiziente Datenpipelines now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.