Kapitel 1. Die Entwicklung von Datenarchitekturen
Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com
Als Data Engineer willst du umfangreiche Daten-, Machine Learning-, Data Science- und KI-Lösungen entwickeln, die die modernste Leistung bieten. Du baust diese Lösungen auf, indem du große Mengen an Quelldaten aufnimmst, die Daten bereinigst, normalisierst und kombinierst und diese Daten schließlich den nachgelagerten Anwendungen über ein einfach zu nutzendes Datenmodell präsentierst.
Da die Datenmenge, die du aufnehmen und verarbeiten musst, immer weiter ansteigt, brauchst du die Möglichkeit, deine Speicherung horizontal zu skalieren. Außerdem brauchst du die Möglichkeit, deine Rechenressourcen dynamisch zu skalieren, um Verarbeitungs- und Verbrauchsspitzen zu bewältigen. Da du deine Datenquellen in einem Datenmodell zusammenfasst, musst du nicht nur Daten an Tabellen anhängen, sondern oft auch Datensätze einfügen, aktualisieren oder löschen (d.h. MERGE oder UPSERT), die auf einer komplexen Geschäftslogik basieren. Du möchtest diese Vorgänge mit Transaktionsgarantien durchführen können, ohne dass du ständig große Datendateien neu schreiben musst.
In der Vergangenheit wurden die oben genannten Anforderungen von zwei verschiedenen Tools erfüllt. Die horizontale Skalierbarkeit und die Entkopplung von Speicherung und Datenverarbeitung wurden von Cloud-basierten Data Lakes geboten, während relationale ...