Vorwort

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Wenn du eines der folgenden Szenarien erlebt hast, hebe deine Hand (oder nicke einfach solidarisch - wir werden es nicht anders erfahren):

  • Aus fünftausend Zeilen in einer kritischen (und relativ vorhersehbaren) Tabelle werden plötzlich fünfhundert, ohne dass es dafür einen Grund gibt.

  • Ein defektes Dashboard führt dazu, dass ein Executive Dashboard Nullwerte ausspuckt.

  • Eine versteckte Schemaänderung unterbricht eine nachgelagerte Pipeline.

  • Und die Liste geht noch weiter.

Dieses Buch ist für alle, die still oder mit dumpfen Schreien unter unzuverlässigen Daten gelitten haben und etwas dagegen tun wollen. Wir gehen davon aus, dass diese Personen aus den Bereichen Data Engineering, Data Analytics oder Data Science kommen und aktiv am Aufbau, der Skalierung und dem Management der Datenpipelines ihres Unternehmens beteiligt sind.

Oberflächlich betrachtet mag es so aussehen, als ob Data Quality Fundamentals ein Handbuch darüber ist, wie man Daten bereinigt, verwaltet und generell sinnvoll nutzt - und das ist es auch. Aber dieses Buch befasst sich vielmehr mit bewährten Methoden, Technologien und Prozessen, um zuverlässigere Datensysteme aufzubauen und dabei das Vertrauen in die Daten bei deinem Team und deinen Stakeholdern zu stärken.

In Kapitel 1 werden wir erörtern, warum die Datenqualität jetzt Aufmerksamkeit verdient und wie architektonische und technologische Trends zu einer allgemeinen Abnahme der Governance und Zuverlässigkeit beitragen. Wir stellen das Konzept der "Datenausfallzeit" vor und erklären, wie es auf die Anfänge der Site Reliability Engineering (SRE)-Teams zurückgeht und wie dieselben DevOps-Prinzipien auch für deine Datenentwicklungsabläufe gelten können.

In Kapitel 2 zeigen wir dir, wie du belastbarere Datensysteme aufbauen kannst, indem wir dir zeigen, wie du die Datenqualität in verschiedenen wichtigen Datenpipeline-Technologien, wie Data Warehouses, Data Lakes und Datenkatalogen, sicherstellen und messen kannst. Diese drei grundlegenden Technologien speichern, verarbeiten und verfolgen den Zustand der Daten vor der Produktion, was uns natürlich zu Kapitel 3 führt, in dem wir erläutern, wie du deine Daten mit Blick auf Qualität und Zuverlässigkeit erheben, bereinigen, umwandeln und testen kannst.

Als Nächstes wird in Kapitel 4 einer der wichtigsten Aspekte des Arbeitsablaufs für die Datenzuverlässigkeit behandelt - die aktive Erkennung und Überwachung von Anomalien -, indem gezeigt wird, wie ein Datenqualitätsmonitor anhand eines öffentlich zugänglichen Datensatzes über Exoplaneten erstellt wird. Dieses Tutorial gibt den Lesern die Möglichkeit, das in den Datenqualitätsgrundlagen Gelernte direkt auf ihre Arbeit in der Praxis anzuwenden, wenn auch in begrenztem Umfang.

In Kapitel 5 erfahren die Leserinnen und Leser aus der Vogelperspektive, was nötig ist, um diese kritischen Technologien zusammenzubringen und robuste Systeme und Prozesse zu entwickeln, die sicherstellen, dass die Datenqualität unabhängig vom Anwendungsfall gemessen und aufrechterhalten wird. Außerdem erfahren wir, wie die besten Datenteams von Airbnb, Uber, Intuit und anderen Unternehmen die Datenzuverlässigkeit in ihre täglichen Arbeitsabläufe integrieren, einschließlich der Festlegung von SLAs, SLIs und SLOs, und wie sie Datenplattformen aufbauen, die die Datenqualität in fünf Schlüsselbereichen optimieren: Frische, Volumen, Verteilung, Schema und Abstammung.

In Kapitel 6 gehen wir auf die Schritte ein, die notwendig sind, um auf Datenqualitätsprobleme in Produktionsumgebungen zu reagieren und sie zu beheben. Dazu gehören das Management von Datenvorfällen, die Ursachenanalyse, Postmortems und bewährte Methoden für die Kommunikation von Vorfällen. In Kapitel 7 gehen die Leserinnen und Leser dann noch einen Schritt weiter, indem sie lernen, wie sie mit beliebten und weit verbreiteten Open-Source-Tools, die zum Arsenal eines jeden Dateningenieurs gehören sollten, ein Lineage auf Feldebene erstellen können.

In Kapitel 8 erörtern wir einige der kulturellen und organisatorischen Hürden, die Datenteams bei der Verbreitung und Demokratisierung von Datenqualität im großen Maßstab überwinden müssen. Dazu gehören Best-in-Class-Prinzipien wie die Behandlung von Daten wie ein Produkt, das Verständnis der RACI-Matrix für Datenqualität in deinem Unternehmen und die Frage, wie du dein Datenteam strukturierst, um eine maximale Wirkung auf das Geschäft zu erzielen.

In Kapitel 9 stellen wir dir mehrere Fallstudien aus der Praxis vor und sprechen mit führenden Köpfen im Bereich Data Engineering, darunter Zhamak Dehghani, der Erfinder des Data Mesh, António Fitas, dessen Team mutig erzählt, wie es zu einer dezentralen (und auf Datenqualität ausgerichteten!) Datenarchitektur übergeht, und Alex Tverdohleb, VP of Data Services bei Fox und Pionier der Datenmanagementtechnik "kontrollierte Freiheit". Dieses Sammelsurium aus Theorie und Praxisbeispielen wird dir zeigen, wie einige der technischen und prozessorientierten Datenqualitätskonzepte, die wir in den Kapiteln 1 bis 8 vorstellen, in beeindruckenden Farben zum Leben erweckt werden können.

Und schließlich schließen wir unser Buch in Kapitel 10 mit einer konkreten Berechnung der finanziellen Auswirkungen schlechter Daten auf dein Unternehmen in Arbeitsstunden ab, um den Lesern (von denen viele mit der Behebung von Datenausfällen betraut sind) dabei zu helfen, die Unternehmensleitung zu überzeugen, in mehr Tools und Prozesse zur Lösung dieser Probleme zu investieren. Außerdem stellen wir vier unserer Vorhersagen für die Zukunft der Datenqualität im Zusammenhang mit allgemeinen Branchentrends vor, z. B. verteiltes Datenmanagement und der Aufstieg des Data Lakehouse.

Wir hoffen, dass du aus diesem Buch zumindest ein paar Tricks mitnimmst, wenn es darum geht, Datenqualität und -zuverlässigkeit in deinem Unternehmen zur Priorität zu machen. Jeder erfahrene Datenverantwortliche wird dir sagen, dass Datenvertrauen nicht an einem Tag aufgebaut wird, aber mit dem richtigen Ansatz können schrittweise Fortschritte erzielt werden - Pipeline für Pipeline.

In diesem Buch verwendete Konventionen

In diesem Buch werden die folgenden typografischen Konventionen verwendet:

Kursiv

Weist auf neue Begriffe, URLs, E-Mail-Adressen, Dateinamen und Dateierweiterungen hin.

Constant width

Wird für Programmlistings sowie innerhalb von Absätzen verwendet, um auf Programmelemente wie Variablen- oder Funktionsnamen, Datenbanken, Datentypen, Umgebungsvariablen, Anweisungen und Schlüsselwörter hinzuweisen.

Tipp

Dieses Element steht für einen Tipp oder eine Anregung.

Hinweis

Dieses Element steht für einen allgemeinen Hinweis.

Code-Beispiele verwenden

Zusätzliches Material (Code-Beispiele, Übungen usw.) steht unter https://oreil.ly/data-quality-fundamentals-code zum Download bereit .

Wenn du eine technische Frage oder ein Problem mit den Codebeispielen hast, schicke bitte eine E-Mail an

Dieses Buch soll dir helfen, deine Arbeit zu erledigen. Wenn in diesem Buch Beispielcode angeboten wird, darfst du ihn in deinen Programmen und deiner Dokumentation verwenden. Du musst uns nicht um Erlaubnis fragen, es sei denn, du reproduzierst einen großen Teil des Codes. Wenn du zum Beispiel ein Programm schreibst, das mehrere Teile des Codes aus diesem Buch verwendet, brauchst du keine Erlaubnis. Der Verkauf oder die Verbreitung von Beispielen aus O'Reilly-Büchern erfordert jedoch eine Genehmigung. Die Beantwortung einer Frage mit einem Zitat aus diesem Buch und einem Beispielcode erfordert keine Genehmigung. Wenn du einen großen Teil des Beispielcodes aus diesem Buch in die Dokumentation deines Produkts aufnimmst, ist eine Genehmigung erforderlich.

Wir freuen uns über eine Namensnennung, verlangen sie aber in der Regel nicht. Eine Quellenangabe umfasst normalerweise den Titel, den Autor, den Verlag und die ISBN. Ein Beispiel: "Data Quality Fundamentals von Barr Moses, Lior Gavish, und Molly Vorwerck (O'Reilly). Copyright 2022 Monte Carlo Data, Inc. 978-1-098-11204-2."

Wenn du der Meinung bist, dass deine Verwendung von Codebeispielen nicht unter die Fair Use-Regelung oder die hier beschriebene Erlaubnis fällt, kannst du uns gerne unter kontaktieren

O'Reilly Online Learning

Hinweis

Seit mehr als 40 Jahren bietet O'Reilly Media Schulungen, Wissen und Einblicke in Technologie und Wirtschaft, um Unternehmen zum Erfolg zu verhelfen.

Unser einzigartiges Netzwerk von Experten und Innovatoren teilt sein Wissen und seine Erfahrung durch Bücher, Artikel und unsere Online-Lernplattform. Die Online-Lernplattform von O'Reilly bietet dir On-Demand-Zugang zu Live-Trainingskursen, ausführlichen Lernpfaden, interaktiven Programmierumgebungen und einer umfangreichen Text- und Videosammlung von O'Reilly und über 200 anderen Verlagen. Weitere Informationen erhältst du unter https://oreilly.com.

Wie du uns kontaktierst

Bitte richte Kommentare und Fragen zu diesem Buch an den Verlag:

  • O'Reilly Media, Inc.
  • 1005 Gravenstein Highway Nord
  • Sebastopol, CA 95472
  • 800-998-9938 (in den Vereinigten Staaten oder Kanada)
  • 707-829-0515 (international oder lokal)
  • 707-829-0104 (Fax)

Wir haben eine Webseite für dieses Buch, auf der wir Errata, Beispiele und zusätzliche Informationen auflisten. Du kannst diese Seite unter https://oreil.ly/data-quality-fundamentals aufrufen .

Schreib eine E-Mail an , um Kommentare oder technische Fragen zu diesem Buch zu stellen.

Neuigkeiten und Informationen über unsere Bücher und Kurse findest du unter https://oreilly.com.

Du findest uns auf LinkedIn: https://linkedin.com/company/oreilly-media.

Folge uns auf Twitter: https://twitter.com/oreillymedia.

Sieh uns auf YouTube: https://www.youtube.com/oreillymedia.

Danksagungen

Dieses Buch war ein Werk der Liebe, und deshalb müssen wir vielen Menschen danken.

Zuerst möchten wir Jess Haberman, unserer furchtlosen Redakteurin, danken, die bei jedem Schritt an uns geglaubt hat. Als Jess mit der Idee für ein Buch über Datenqualität zu uns kam, waren wir begeistert - auf die bestmögliche Art und Weise. Wir hatten keine Ahnung, dass ein Thema - Datenzuverlässigkeit -, das uns so sehr am Herzen liegt, auch außerhalb unserer persönlichen Blogartikel ein Leben finden würde. Dank ihres Engagements und ihrer Ermutigung waren wir in der Lage, einen Entwurf zu verfassen, der sich von dem abhob, was in diesem Bereich bereits veröffentlicht worden war, und schließlich ein Buch zu schreiben, das anderen Datenexperten, die mit Datenausfällen zu kämpfen haben, von Nutzen sein würde.

Wir müssen auch Jill Leonard, unserer Entwicklungsredakteurin, danken, die während des gesamten Schreibprozesses als unser Yoda fungiert hat. Sie gab uns unschätzbare Ratschläge zu Textfluss und -gestaltung und stand uns für aufmunternde Gespräche und Brainstorming-Sitzungen zur Verfügung ("Sollte dieses Kapitel hier stehen? Was ist mit dort? Was ist überhaupt ein Vorwort?"). Unsere gemeinsame Liebe zu Katzen hat das Band noch enger geknüpft.

Wir sind unseren technischen Prüfern Tristan Baker, Debashis Saha, Wayne Yaddow, Scott Haines, Sam Bail, Joy Payton und Robert Ansel für ihre scharfen Korrekturen und ihr wertvolles Feedback zu mehreren Entwürfen des Buches zu großem Dank verpflichtet. Ihre Leidenschaft, bewährte Methoden für DevOps und eine gute Datenhygiene in die Praxis umzusetzen, ist eine Inspiration, und wir sind dankbar für die Zusammenarbeit mit ihnen.

Wir möchten uns ganz herzlich bei Ryan Kearns bedanken, der an diesem Buch mitgewirkt hat und dessen Name auf dem Klappentext hätte stehen können. Er hat mehrere Kapitel geleitet und kritische Einblicke in die besprochenen Technologien und Prozesse gegeben - ohne seine Hilfe wäre dieses Buch nicht zustande gekommen. Wir lernen jeden Tag von ihm und sind froh, ihn einen lieben Kollegen nennen zu dürfen. In den kommenden Jahren wird Ryan zweifelsohne eine der wichtigsten Stimmen im Bereich Data Engineering und Data Science werden.

Für dieses Buch und verschiedene andere Projekte, die wir im letzten Jahr verfolgt haben, haben wir mehrere Branchenexperten und Vorreiter interviewt. In keiner besonderen Reihenfolge möchten wir Brandon Beidel, Alex Tverdohleb, António Fitas, Gopi Krishnamurthy, Manu Raj, Zhamak Dehghani, Mammad Zadeh, Greg Waldman, Wendy Turner Williams, Zosia Kossowski, Erik Bernhardsson, Jessica Cherny, Josh Wills, Kyle Shannon, Atul Gupte, Chad Sanderson, Patricia Ho, Michael Celentano, Prateek Chawla, Cindi Howson, Debashis Saha, Melody Chien, Ankush Jain, Maxime Beauchemin, DJ Patil, Bob Muglia, Mauricio de Diana, Shane Murray, Francisco Alberini, Mei Tao, Xuanzi Han, und Helena Munoz.

Wir möchten uns auch bei Brandon Gubitosa, Sara Gates und Michael Segner für ihre Unterstützung bei den Entwürfen und Skizzen bedanken - und dafür, dass sie uns immer ermutigt haben, "unsere Lieblinge zu töten ".

Wir sind unseren Eltern Elisha und Kadia Moses, Motti und Vira Gavish sowie Gregg und Barbara Vorwerck zu Dank verpflichtet, weil sie uns ermutigt haben, unserer Leidenschaft für Data Engineering und Datenqualität nachzugehen - von der Gründung eines Unternehmens und einer Kategorie, die sich diesem Konzept widmet, bis hin zum Schreiben dieses Buches. Wir möchten auch Rae Barr Gavish (RBG) dafür danken, dass sie unser größter Fan ist, und Robert Ansel dafür, dass er unser SRE, WordPress-Berater und DevOps-Guru ist.

Und wir stehen für immer in der Schuld unserer Kunden, die uns dabei helfen, Pionierarbeit in der Kategorie Datenbeobachtung zu leisten und damit den Grundstein für die Zukunft zuverlässiger Daten im großen Maßstab zu legen.

Get Grundlagen der Datenqualität now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.