Kapitel 4. Automatisierung der Datenqualitätsüberwachung mit maschinellem Lernen
Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com
Maschinelles Lernen ist ein statistischer Ansatz, der im Vergleich zu regelbasierten Tests und der Überwachung von Metriken viele Vorteile hat: Er ist skalierbar, kann unbekannte Veränderungen erkennen und ist - auch auf die Gefahr hin, dass er vermenschlicht wird - intelligent. Sie kann aus früheren Eingaben lernen, Kontextinformationen nutzen, um Fehlalarme zu minimieren, und deine Daten im Laufe der Zeit immer besser verstehen.
In den vorherigen Kapiteln haben wir untersucht, wann und wie Automatisierung mit ML für deine Strategie zur Überwachung der Datenqualität sinnvoll ist. Jetzt ist es an der Zeit, den Kernmechanismus zu erforschen: wie du ein Modell trainieren, entwickeln und verwenden kannst, um Datenqualitätsproblemezu erkennen - undsogar Aspekte wie deren Schweregrad und wo sie in deinen Daten auftreten zu erklären.
In diesem Kapitel erklären wir, welcher Ansatz des maschinellen Lernens sich am besten für die Überwachung der Datenqualität eignet und zeigen dir den Algorithmus (eine Reihe von Schritten), mit dem du diesen Ansatz umsetzen kannst. Wir beantworten Fragen wie die, wie viele Daten du abfragen solltest und wie du die Ergebnisse des Modells erklärbar machst. Es ist wichtig zu betonen, dass die hier beschriebenen Schritte nicht zu einem Modell führen, ...