Vorwort
Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com
Die meisten Unternehmen, die eine ausreichende Größe und Skalierung erreicht haben, kommen an einen Punkt, an dem sie sich fragen, ob ihre Daten vertrauenswürdig sind. Sie sehen Zahlen auf den Dashboards, die unmöglich stimmen können; aus heiterem Himmel fangen Machine Learning Modelle an, in der Produktion schlecht zu funktionieren. Die Redewendung "garbage in, garbage out" beginnt intern zu kursieren und bezieht sich auf das Problem, Produkte und Funktionen mit Daten zu erstellen, die Fehler, fehlende Segmente und andere Ungenauigkeiten enthalten können.
Wenn das Vertrauen in die Daten des Unternehmens zu schwinden beginnt - oder vielleicht gar nicht erst vorhanden war -, ist es wichtig, dieses Problem direkt anzugehen. Die Datenqualität verbessert sich nicht auf magische Weise, wenn ein Unternehmen weiter wächst, sondern wird durch die zunehmende Komplexität nur noch schlechter. Genau wie die Softwarequalität muss auch die Datenqualität ständig überwacht werden, damit Probleme schnell behoben werden können, sobald sie auftreten.
Viele Unternehmen sind in der Theorie mit dieser Idee einverstanden, haben aber Schwierigkeiten, die Überwachung der Datenqualität in der Praxis und auf Unternehmensebene umzusetzen. Als Jeremy und Elliott 2018 Anomalo gründeten, taten sie das, weil sie aus erster Hand erfahren hatten, dass die bestehenden Ansätze zur Überwachung der Datenqualität den Bedürfnissen moderner Unternehmen nicht gerecht werden.
Regeln zu schreiben, um jede Geschäftslogik zu überprüfen, die für jede Tabelle und jede Spalte erfüllt sein muss, hat vielleicht funktioniert, als Unternehmen nur ein paar kleine, gut kontrollierte Tabellen unterhielten, aber bei den heutigen Datenmengen ist das, als würde man versuchen, den Ozean zum Kochen zu bringen. Die Verfolgung von KPIs kann dir einen wichtigen Hinweis auf die Datenqualität geben, ebenso wie die Beobachtung grundlegender Metadaten, z. B. ob die Daten rechtzeitig ankommen - aber die Abdeckung ist immer noch unzureichend, und du wirst keine Möglichkeit haben, alle Probleme zu erkennen, an die du nicht gedacht hast.
Deshalb sind wir so begeistert von dem Ansatz, den wir in diesem Buch vorstellen: die Automatisierung der Datenqualitätsüberwachung mit maschinellem Lernen. Maschinelles Lernen ist ein unglaublich leistungsfähiges Werkzeug, das die Innovation überall vorantreibt, so auch im Bereich der Datenqualität. In diesem Buch geben wir unser Wissen aus fünf Jahren Entwicklung einer ML-gestützten Datenqualitätsüberwachungsplattform weiter, die von Unternehmenskunden in einer Vielzahl von Branchen genutzt wird. Diese Kapitel enthalten die modernsten Techniken, die wir kennen - egal, ob wir darüber sprechen, wie man ein unüberwachtes Modell entwickelt, um Probleme in den Daten zu erkennen, wie man dieses Modell bewertet und abstimmt oder wie man sicherstellt, dass die Benachrichtigungen nicht zu laut sind.
Wenn du dich entscheidest, in diese Technologie zu investieren, ist es höchstwahrscheinlich keinen Moment zu früh. Daten treiben den jüngsten technologischen Wandel durch bessere Entscheidungen, Automatisierung und generative KI voran. Die Qualität deiner Daten entscheidet letztlich darüber, wie erfolgreich die Produkte und Dienstleistungen deines Unternehmens in dieser neuen und sich ständig verändernden Landschaft sein werden. Und wenn Unternehmen bessere Technologien entwickeln können, profitieren wir alle von der kollektiven Innovation - sei es wirtschaftlich, gesellschaftlich oder sogar persönlich.
Wenn du also deine Datenqualität verbesserst, kannst du vielleicht die Welt retten? Vielleicht ist das ein bisschen übertrieben. Aber wir glauben, dass du aus diesem Buch das eine oder andere lernen und hoffentlich auch Spaß dabei haben wirst.
Wir schließen mit folgendem Satz: Datenqualität ist ein ständiger Prozess. In diesem Bereich gibt es derzeit viele Innovationen, und wir erwarten, dass noch mehr Innovationen kommen werden. Vielleicht nimmst du als Leser die Techniken in diesem Buch sogar noch einen Schritt weiter - das ist unsere Hoffnung, und wenn das der Fall ist, würden wir gerne von dir hören. Du kannst die Autoren direkt unter automating.data.quality.monitoring@anomalo.com kontaktieren .
Wer sollte dieses Buch benutzen?
Wir haben dieses Buch vor allem für drei Zielgruppen geschrieben.
Der erste ist der Chief Data and Analytics Officer (CDAO) oder VP of Data. Als jemand, der auf höchster Ebene für die Daten deines Unternehmens verantwortlich ist, ist das gesamte Buch für dich gedacht - aber am meisten dürften dich die Kapitel 1, 2 und 3 interessieren, in denen wir klar und deutlich erklären, warum du dich um die Automatisierung der Datenqualitätsüberwachung in deinem Unternehmen kümmern solltest und wie du den ROI einer automatisierten Datenqualitätsüberwachungsplattform bewerten kannst. Besonders wichtig ist auch Kapitel 8, in dem es darum geht, wie du die Datenqualität im Laufe der Zeit verfolgen und verbessern kannst.
Die zweite Zielgruppe für dieses Buch ist der Leiter der Data Governance. In dieser oder einer ähnlichen Funktion bist du wahrscheinlich die Person, die am direktesten für die Verwaltung der Datenqualität in deinem Unternehmen verantwortlich ist. Obwohl das gesamte Buch von großem Nutzen für dich sein dürfte, glauben wir, dass die Kapitel 1, 2 und 3 über Automatisierung sowie die Kapitel 7 und 8 über Integration und Betrieb besonders nützlich sein werden.
Unser drittes Zielpublikum sind die Datenpraktiker/innen. Egal, ob du Datenwissenschaftler, Analyst oder Dateningenieur bist, deine Arbeit hängt von der Datenqualität ab, und die Überwachungs-Tools, die du verwendest, haben einen großen Einfluss auf deinen Arbeitsalltag. Diejenigen, die eine Plattform zur Überwachung der Datenqualität aufbauen oder betreiben, sollten sich vor allem auf die Kapitel 4 bis 7 konzentrieren, in denen wir die Entwicklung eines Modells, das Design von Benachrichtigungen und die Integration der Plattform in dein Datenökosystem behandeln.
In diesem Buch verwendete Konventionen
In diesem Buch werden die folgenden typografischen Konventionen verwendet:
- Kursiv
-
Weist auf neue Begriffe, URLs, E-Mail-Adressen, Dateinamen und Dateierweiterungen hin.
Constant width
-
Wird für Programmlistings sowie innerhalb von Absätzen verwendet, um auf Programmelemente wie Variablen- oder Funktionsnamen, Datenbanken, Datentypen, Umgebungsvariablen, Anweisungen und Schlüsselwörter hinzuweisen.
Dieses Element steht für einen Tipp oder eine Anregung.
Dieses Element steht für einen allgemeinen Hinweis.
Dieses Element weist auf eine Warnung oder einen Warnhinweis hin.
O'Reilly Online Learning
Seit mehr als 40 Jahren bietet O'Reilly Media Schulungen, Wissen und Einblicke in Technologie und Wirtschaft, um Unternehmen zum Erfolg zu verhelfen.
Unser einzigartiges Netzwerk von Experten und Innovatoren teilt sein Wissen und seine Erfahrung durch Bücher, Artikel und unsere Online-Lernplattform. Die Online-Lernplattform von O'Reilly bietet dir On-Demand-Zugang zu Live-Trainingskursen, ausführlichen Lernpfaden, interaktiven Programmierumgebungen und einer umfangreichen Text- und Videosammlung von O'Reilly und über 200 anderen Verlagen. Weitere Informationen erhältst du unter https://oreilly.com.
Wie du uns kontaktierst
Bitte richte Kommentare und Fragen zu diesem Buch an den Verlag:
- O'Reilly Media, Inc.
- 1005 Gravenstein Highway Nord
- Sebastopol, CA 95472
- 800-889-8969 (in den Vereinigten Staaten oder Kanada)
- 707-829-7019 (international oder lokal)
- 707-829-0104 (Fax)
- support@oreilly.com
- https://www.oreilly.com/about/contact.html
Wir haben eine Webseite für dieses Buch, auf der wir Errata, Beispiele und zusätzliche Informationen auflisten. Du kannst diese Seite unter https://oreil.ly/automating-data-quality aufrufen .
Neuigkeiten und Informationen über unsere Bücher und Kurse findest du unter https://oreilly.com.
Finde uns auf LinkedIn: https://linkedin.com/company/oreilly-media
Folge uns auf Twitter: https://twitter.com/oreillymedia
Schau uns auf YouTube: https://youtube.com/oreillymedia
Danksagungen
Dieses Buch wäre ohne die Beiträge zahlreicher Menschen nicht möglich gewesen. Elliot Shmukler, CEO und Mitbegründer von Anomalo, war an der Entwicklung und Entdeckung vieler Innovationen in diesem Buch beteiligt und war ein unverzichtbarer Gutachter. Vicky Andonova, ein Mitglied des Gründungsteams von Anomalo und unsere Managerin für angewandtes maschinelles Lernen, hat ebenfalls viele der Ideen in diesem Buch entwickelt und verfeinert. Zu den weiteren internen Gutachtern von Anomalo gehören Anthony Lee, Amy Reams, Erick Peirson, John Joo, Lucy Vallejo-Anderson, Taly Kanfi und Tristen Cross, die hervorragende Beiträge und Rückmeldungen lieferten. Dieses Buch wäre nicht möglich gewesen ohne all die Anomollamas (von denen viele hier nicht erwähnt sind), die ihre Kreativität und ihren Einblick in die Entwicklung unserer Plattform einbringen und unseren Kunden jeden Tag helfen. Vielen Dank!
Zu den weiteren Beratern und Freunden, denen wir danken möchten, gehören: Monica Rogati, einer prominenten Data Science-Beraterin; Daniele Perito, Mitbegründer von Faire, der den Begriff " Data Scars" geprägt hat; Prakash Jaganathan, Senior Director of Enterprise Data Platforms bei Discover, für die frühe Prüfung und die Erlaubnis, auf seine hervorragende ROI-Fallstudie zu verlinken; dem Team von Chick-fil-A für die unschätzbaren Einblicke in den Onboarding-Prozess ihrer Plattform; DJ Patil für die Werbung für unsere frühe Veröffentlichung; Josh Wills für seinen Humor und seine Einblicke; und Josie Stanley für das Teilen ihrer künstlerischen Talente.
Wir möchten uns ganz herzlich beim Team von O'Reilly bedanken, unter anderem bei unserem unglaublichen Redakteur Gary O'Brien und unserem Buchproduktions- und Managementteam: Aaron Black, Jonathon Owen, Elizabeth Faerm, Carol Keller, Kristen Brown, Lisa LaRew, Patrick McGrath und Phil Garzoli. Wir möchten uns auch bei unseren O'Reilly-Rezensenten Oscar Quintana, Pier Paolo Ippolito, Shubham Piyushbhai Patel und Wayne Yaddow bedanken, die ihr Branchenwissen und ihre externe Perspektive in das Buch eingebracht und wichtige Kommentare und Fragen gestellt haben, die den Inhalt verbessert haben.
Get Die Überwachung der Datenqualität automatisieren now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.