Einführung
Egal, ob du Dateningenieur/in bist oder einen anderen datenorientierten Beruf ausübst (wir sehen dich, Analysten/innen und Wissenschaftler/innen), du hast wahrscheinlich schon einmal den Begriff ETL gehört. Es ist gut möglich, dass ETL ein Teil deines Lebens ist, auch wenn du es nicht weißt!
Die Abkürzung ETL steht für Extrahieren, Transformieren, Laden und beschreibt den grundlegenden Arbeitsablauf, mit dem die meisten Datenexperten konfrontiert sind: Sie nehmen Daten aus einem Quellsystem, ändern sie nach ihren Bedürfnissen und laden sie in ein Zielsystem.
Du willst Produktverantwortlichen helfen, datengestützte Entscheidungen zu treffen? ETL erstellt die wichtigen Tabellen für deine Berichte. Willst du die nächste Iteration des maschinellen Lernmodells deines Teams trainieren? ETL erstellt hochwertige Datensätze. Willst du die Speicherrichtlinien deines Unternehmens besser strukturieren und strenger gestalten, um die Compliance-Anforderungen zu erfüllen? ETL bringt Prozesse, Abstammung und Beobachtbarkeit in deine Arbeitsabläufe.
Wenn du etwas mit Daten machen willst, brauchst du einen zuverlässigen Prozess oder eine Pipeline. Diese grundlegende Wahrheit gilt für klassische Business Intelligence (BI)-Workloads ebenso wie für modernste Entwicklungen wie große Sprachmodelle (LLMs) und KI.
Die schöne neue Welt der KI
Die Datenwelt hat viele Trends kommen und gehen sehen; einige haben den Bereich verändert, andere haben sich als kurzlebige Modeerscheinungen erwiesen. Der jüngste Trend ist zweifellos die generative KI.
An jeder Ecke wird über KI, LLMs und Chatbots gesprochen. Die jüngste Faszination für KI, die vor allem durch die Veröffentlichung von OpenAIs ChatGPT ausgelöst wurde, geht über das Interesse der Medien und der Forscher hinaus - sie wird jetzt von vielen als eine wichtige strategische Investition angesehen... und wer will schon zurückbleiben?
Der wahre Wert von LLMs liegt in der Einbettung oder Feinabstimmung von Modellen auf sauberen, kuratierten Datensätzen. Diese Techniken ermöglichen die Erstellung von Modellen mit domänenspezifischem Wissen und vermeiden häufige Fehler wie Halluzinationen.
Natürlich werden aussagekräftige Einbettungen aus - du hast es erraten - sauberen Datensätzen abgeleitet. In diesem Sinne beruht KI auf der Transformation von Daten. Ihr Erfolg hängt stark von der Fähigkeit ab, konsistente, qualitativ hochwertige Datensätze in großem Umfang zu erstellen. Daten müssen an einem einzigen Ort verschoben, verändert und zusammengeführt werden - man könnte auch sagen: extrahiert, transformiert und geladen.
Das ist richtig - selbst die modernste Technologie hat ihre Wurzeln in ETL.
Eine sich verändernde Datenlandschaft
Neben dem jüngsten Aufschwung der generativen KI haben auch andere Trends die Datenlandschaft im letzten Jahrzehnt verändert. Ein solcher Trend ist die zunehmende Bedeutung von Streaming-Daten. Unternehmen erzeugen heute riesige Mengen an Echtzeitdaten durch Sensoren, Websites, mobile Anwendungen und vieles mehr. Dieser Wandel erfordert die Aufnahme und Verarbeitung von Daten in Echtzeit, um sofortige Entscheidungen treffen zu können. Dateningenieure stehen daher vor der Herausforderung, über die traditionelle Stapelverarbeitung hinauszugehen und kontinuierliche Pipelines zu entwickeln und zu verwalten, die große Mengen an Streaming-Daten verarbeiten können.
Eine weitere bemerkenswerte Entwicklung ist das Aufkommen von Data Lakehouse-Architekturen. Das Data Lakehouse ist ein neuartiges Konzept, das versucht, die Fähigkeiten von Data Warehouses und Data Lakes zu vereinen. Durch die Nutzung neuer Speichertechnologien wie Delta Lake, die die Zuverlässigkeit und Leistung von Data Lakes verbessern, kombiniert das Lakehouse-Modell die kostengünstige, skalierbare Speicherung von Data Lakes mit der effizienten Transaktionsverarbeitung von Data Warehouses. Diese Kombination ermöglicht die Ausführung von KI-Workloads (die normalerweise in Data Lakes verarbeitet werden) und Analyse-Workloads (die normalerweise in Data Warehouses durchgeführt werden) in einem einzigen Rahmen. Diese Integration reduziert die Komplexität, die mit der Aufrechterhaltung paralleler Architekturen, der Gewährleistung einer konsistenten Datenverwaltung und der Verwaltung von Datenduplikaten verbunden ist, erheblich.
ETL ist zwar ein altbekanntes Konzept im Datenmanagement, aber seine Bedeutung hat in der modernen Datenlandschaft nichts von seiner Aktualität verloren. Entscheidend ist jetzt, wie ETL-Prozesse so angepasst werden können, dass sie sowohl Batch- als auch Streaming-Daten umfassen, und wie sie effektiv in eine Data Lakehouse-Architektur integriert werden können. Dieser Leitfaden soll diese Aspekte beleuchten und dir dabei helfen, ETL vor dem Hintergrund dieser sich entwickelnden Trends zu verstehen.
Was ist mit ELT (und anderen Geschmacksrichtungen)?
Wenn du dich mit Data Engineering beschäftigst, stößt du neben ETL vielleicht auch auf Begriffe wie ELT. Du denkst vielleicht: "Wow, die sollten mal einen Korrekturleser einstellen", aber sei beruhigt, es sind tatsächlich unterschiedliche Begriffe.
Der entscheidende Unterschied bei ELT liegt in der Reihenfolge: Bei ELT wird alles in eine Staging-Ressource geladen und dann nachgelagert transformiert. ELT wird immer mehr zur Norm und verdrängt ETL in vielen Szenarien - denn viele sagen: "Speicherung ist billig." Der Begriff "ETL" ist schon so lange gebräuchlich (seit es Datenbanken gibt), dass er immer noch häufig verwendet wird, auch wenn ELT genauer ist. Wir leben jetzt in einer Zeit, in der "erst speichern, dann handeln" gilt, was durch die sinkenden Kosten für die Speicherung in der Cloud und die Einfachheit der Datengenerierung erleichtert wird.
Für die Analyse ist es wichtig, alle potenziell nützlichen Daten aufzubewahren. Technologische Fortschritte wie die Medaillon-Architektur und Data Lakehouse unterstützen diesen Ansatz mit Funktionen wie einfacher Schemaentwicklung und Zeitreise. Diese und weitere Funktionen werden wir in diesem Leitfaden besprechen.
Obwohl wir hauptsächlich den Begriff "ETL" verwenden, ist es wichtig zu wissen, dass die besprochenen Prinzipien und Überlegungen sowohl auf ETL als auch auf ELT anwendbar sind, ebenso wie auf andere Varianten wie Reverse ETL - diePraxis, bereinigte Daten aus dem Warehouse oder Lakehouse zurück in die Geschäftstools einzuspeisen. Nein, Reverse ETL != LTE, und ja, das ist verwirrend, aber wir schweifen ab.
Unabhängig davon, ob der Begriff "ETL" deinen aktuellen Prozess genau beschreibt oder nicht, ist es wichtig, die Grundlagen der Datenaufnahme, -umwandlung und -orchestrierung zu verstehen. Das gilt auch für bewährte Methoden in Bereichen wie Beobachtbarkeit, Fehlerbehebung, Skalierung und Optimierung. Wir hoffen, dass dieser Leitfaden eine wertvolle Ressource sein wird, unabhängig davon, welche Datenverarbeitungsmethode du anwendest.
O'Reilly Online Learning
Hinweis
Seit mehr als 40 Jahren bietet O'Reilly Media Schulungen, Wissen und Einblicke in Technologie und Wirtschaft, um Unternehmen zum Erfolg zu verhelfen.
Unser einzigartiges Netzwerk von Experten und Innovatoren teilt sein Wissen und seine Erfahrung durch Bücher, Artikel und unsere Online-Lernplattform. Die Online-Lernplattform von O'Reilly bietet dir On-Demand-Zugang zu Live-Trainingskursen, ausführlichen Lernpfaden, interaktiven Programmierumgebungen und einer umfangreichen Text- und Videosammlung von O'Reilly und über 200 anderen Verlagen. Weitere Informationen erhältst du unter https://oreilly.com.
Wie du uns kontaktierst
Bitte richte Kommentare und Fragen zu diesem Buch an den Verlag:
- O'Reilly Media, Inc.
- 1005 Gravenstein Highway Nord
- Sebastopol, CA 95472
- 800-889-8969 (in den Vereinigten Staaten oder Kanada)
- 707-827-7019 (international oder lokal)
- 707-829-0104 (Fax)
- support@oreilly.com
- https://www.oreilly.com/about/contact.html
Wir haben eine Webseite für dieses Buch, auf der wir Errata, Beispiele und zusätzliche Informationen auflisten. Du kannst diese Seite unter https://oreil.ly/understandingETL aufrufen .
Neuigkeiten und Informationen über unsere Bücher und Kurse findest du unter https://oreilly.com.
Du findest uns auf LinkedIn: https://linkedin.com/company/oreilly-media.
Sieh uns auf YouTube: https://youtube.com/oreillymedia.
Danksagungen
Obwohl wir alle auf den Schultern von Riesen stehen, wäre dieser Leitfaden ohne die Hilfe und Unterstützung einiger sehr engagierter und fürsorglicher Menschen nicht möglich gewesen.
Zuerst möchte ich mich bei meinen Partnern von O'Reilly und Databricks bedanken: Aaron Black, der mir die Gelegenheit zum Schreiben gegeben hat; Gary O'Brien, der ein hervorragender Entwicklungsredakteur (und Vertrauter!) war; Ori Zohar, der geholfen hat, den Leitfaden als Ganzes zu gestalten; und Sumit Makashir und Pier Paolo Ippolito für ihre ausgezeichneten und aufmerksamen technischen Überprüfungen.
Vielen Dank an Zander Matheson für deine Hilfe beim Verständnis von Streaming und Stream Processing. Zander hat nicht nur ein fantastisches Tool (Bytewax) entwickelt, sondern ist auch ein großartiger Freund und ein Datenguru.
Vielen Dank an Aleks Tordova und das Coalesce-Team, die mich bei der Erstellung meines ersten Leitfadens unterstützt und mir viele Möglichkeiten gegeben haben, zu lernen und zu wachsen.
Danke an meine Familie, die mich auf meiner Reise durch die Daten und das Leben bedingungslos unterstützt hat - trotz meiner Schwächen, Eigenheiten und allgemeinen Albernheiten. Danke, Jasmine, Violet und Paul (und den Welpen Enzo und Rocky!)
Außerdem bin ich mit einigen wunderbaren Freunden gesegnet, die mich unterstützt haben, als ich quer durchs Land zog, einen neuen Job annahm, diesen Leitfaden schrieb und meinen Weg der Selbstfindung fortsetzte. Es gab viele SMS, Slacks, Telefonanrufe und Memes, die mir durch die schwierigen Zeiten geholfen haben. In alphabetischer Reihenfolge: Danke, JulieAnn, Kandace, Rob, Srini und Tyson.
Zuletzt möchte ich mich bei der Datengemeinschaft bedanken. Den Menschen, die zu Open Source beitragen und auf Konferenzen präsentieren, den Praktikern, die jeden Tag aufwachen und sich verbessern wollen, den Ausbildern/Mentoren, die uns als Fachgebiet voranbringen, und all den Autoren, deren Texte, Ideen und Inhalte uns geholfen haben, dorthin zu kommen, wo wir heute sind: Ich kann es kaum erwarten, zu sehen, was wir als Nächstes erreichen!
Get ETL verstehen now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.