Book description
Data Engineering hat sich in den letzten zehn Jahren rasant entwickelt, sodass viele Software Engineers, Datenanalystinnen und Data Scientists nach einer zusammenfassenden Darstellung der grundlegenden Techniken suchen. Dieses praxisorientierte Buch gibt Ihnen mit dem Data Engineering Lifecycle ein Framework an die Hand, das die Evaluierung und Auswahl der besten Technologien für reale Geschäftsprobleme erleichtert. Sie erfahren, wie Sie Systeme so planen und entwickeln, dass sie den Anforderungen Ihres Unternehmens und Ihrer Kunden optimal gerecht werden.Joe Reis und Matt Housley führen Sie durch den Data Engineering Lifecycle und zeigen Ihnen, wie Sie eine Vielzahl von Cloud-Technologien kombinieren können, um die Bedürfnisse von Datenkonsumenten zu erfüllen. Sie lernen, die Konzepte der Generierung, Ingestion, Orchestrierung, Transformation, Speicherung und Bereitstellung von Daten anzuwenden, die in jeder Datenumgebung – unabhängig von der konkret verwendeten Technologie – von entscheidender Bedeutung sind.- Erhalten Sie einen kompakten Überblick über die gesamte Praxis des Data Engineering- Beurteilen Sie Problemstellungen im Data Engineering anhand eines umfassenden Frameworks von Best Practices- Wählen Sie geeignete Datentechnologien, -architekturen und -prozesse jenseits des Marketing-Hypes aus- Nutzen Sie den Data Engineering Lifecycle, um eine robuste Infrastruktur zu entwerfen und aufzubauen- Erfahren Sie, wie Sie Data Governance und Sicherheit in den gesamten Lebenszyklus Ihrer Daten integrieren
Table of contents
- Cover
- Titel
- Impressum
- Inhalt
- Vorwort
-
Teil I Grundlagen und Bausteine
- 1 Data Engineering – eine Beschreibung
- Was ist Data Engineering?
- Data Engineering – eine Definition
- Der Data Engineering Lifecycle
- Die Entwicklung des Data Engineers
- Data Engineering und Data Science
- Data Engineering – Fähigkeiten und Tätigkeiten
- Datenreife und der Data Engineer
- Der berufliche Werdegang und die Kompetenzen eines Data Engineers
- Geschäftliche Verantwortlichkeiten
- Technische Verantwortlichkeiten
- Das Kontinuum der Rollen im Data Engineering – von A nach B
- Data Engineers innerhalb eines Unternehmens
- Nach innen gerichtete versus nach außen gerichtete Data Engineers
- Data Engineers und andere technische Rollen
- Data Engineers und die Unternehmensführung
- Fazit
- Weitere Quellen
- 2 Der Data Engineering Lifecycle
- Was ist der Data Engineering Lifecycle?
- Datenlebenszyklus versus Data Engineering Lifecycle
- Generierung: Quellsysteme
- Speicherung
- Ingestion
- Transformation
- Bereitstellung
- Die wesentlichen Unterströmungen innerhalb des Data Engineering Lifecycle
- Sicherheit
- Datenmanagement
- DataOps
- Datenarchitektur
- Orchestrierung
- Softwareentwicklung
- Fazit
- Weitere Quellen
- 3 Konzeption einer guten Datenarchitektur
- Was ist Datenarchitektur?
- Definition der Unternehmensarchitektur
- Definition der Datenarchitektur
- »Gute« Datenarchitektur
- Die Grundsätze guter Datenarchitektur
- Grundsatz 1: Wählen Sie gängige Komponenten mit Bedacht aus
- Grundsatz 2: Planen Sie Ausfälle ein
- Grundsatz 3: Planen Sie für Skalierbarkeit
- Grundsatz 4: Architektur heißt Führung
- Grundsatz 5: Seien Sie immer Architekt
- Grundsatz 6: Entwickeln Sie lose gekoppelte Systeme
- Grundsatz 7: Treffen Sie reversible Entscheidungen
- Grundsatz 8: Priorisieren Sie das Thema Sicherheit
- Grundsatz 9: Nutzen Sie FinOps
- Wichtige Konzepte der Architektur
- Domänen und Dienste
- Verteilte Systeme, Skalierbarkeit und Ausfallsicherheit
- Enge versus lockere Kopplung: Schichten, Monolithen und Microservices
- Benutzerzugriff: Einzelmandant versus Mehrmandanten
- Ereignisgesteuerte Architektur
- Brownfield- versus Greenfield-Projekte
- Beispiele und Arten der Datenarchitektur
- Data Warehouse
- Data Lake
- Konvergenz, Data Lakes der nächsten Generation und die Datenplattform
- Modern Data Stack
- Lambda-Architektur
- Kappa-Architektur
- Das Dataflow-Modell und die Vereinheitlichung von Batch und Streaming
- Architektur für IoT
- Data Mesh
- Weitere Beispiele von Datenarchitekturen
- Wer ist an der Gestaltung einer Datenarchitektur beteiligt?
- Fazit
- Weitere Quellen
- 4 Wahl der Technologien für den kompletten Data Engineering Lifecycle
- Größe und Fähigkeiten des Teams
- Schnelle Markteinführung
- Interoperabilität
- Kostenoptimierung und Geschäftswert
- Gesamtbetriebskosten
- Total Opportunity Cost of Ownership
- FinOps
- Gegenwart versus Zukunft: unveränderliche versus vergängliche Technologien
- Unser Rat
- Standort
- Vor Ort
- Cloud
- Hybride Cloud
- Multicloud
- Dezentralisiert: Blockchain und Edge
- Unser Rat
- Argumente für die Cloud-Rückführung
- Eigenentwicklung oder Kauf
- Open Source
- Proprietäre geschlossene Systeme
- Unser Rat
- Monolithisch versus modular
- Monolith
- Modularität
- Der verteilte Monolith
- Unser Rat
- Serverlos versus Server
- Serverless
- Container
- Wie bewertet man Server versus Serverless?
- Unser Rat
- Optimierung, Leistung und Benchmarking
- Big Data … für die 1990er
- Absurde Kostenvergleiche
- Asymmetrische Optimierung
- Ausschluss der Gewährleistung
- Die Unterströmungen und ihre Auswirkungen auf die Wahl der Technologien
- Datenmanagement
- DataOps
- Datenarchitektur
- Beispiel für Orchestrierung: Airflow
- Softwareentwicklung
- Fazit
- Weitere Quellen
-
Teil II Der Data Engineering Lifecycle im Detail
- 5 Datengenerierung in den Quellsystemen
- Datenquellen: Wie entstehen Daten?
- Quellsysteme: zentrale Aspekte
- Dateien und unstrukturierte Daten
- APIs
- Anwendungsdatenbanken (OLTP-Systeme)
- Das OLAP-System
- CDC
- Protokolle
- Datenbankprotokolle
- CRUD
- Insert-only
- Nachrichten und Streams
- Zeittypen
- Quellsysteme – praktische Details
- Datenbanken
- APIs
- Datenfreigabe
- Datenquellen von Drittanbietern
- Plattformen für das Streaming von Nachrichten und Ereignissen
- Mit wem arbeiten Sie zusammen?
- Die Bedeutung der Unterströmungen für Quellsysteme
- Sicherheit
- Datenmanagement
- DataOps
- Datenarchitektur
- Orchestrierung
- Softwareentwicklung
- Fazit
- Weitere Quellen
- 6 Speicherung
- Komponenten der Datenspeicherung
- Magnetische Festplatten
- Solid State Drive
- Direktzugriffsspeicher
- Netzwerke und CPU
- Serialisierung
- Kompression
- Caching
- Datenspeichersysteme
- Einzelner Rechner versus verteilte Speicherung
- Eventuelle versus starke Konsistenz
- Dateispeicher
- Blockspeicher
- Objektspeicher
- Cache- und RAM-basierte Speichersysteme
- Hadoop
- Streaming-Storage
- Indizes, Partitionen und Cluster
- Speicherkonzepte im Data Engineering
- Data Warehouse
- Data Lake
- Data Lakehouse
- Datenplattformen
- Stream-to-Batch-Speicherarchitektur
- Große Ideen und Trends in der Speicherung
- Datenkatalog
- Datenfreigabe
- Schema
- Trennung von Verarbeitung und Speicherung
- Lebenszyklus der Datenspeicherung und die Datenaufbewahrung
- Mandantenfähiger versus mehrmandantenfähiger Speicher
- Mit wem arbeiten Sie zusammen?
- Unterströmungen
- Sicherheit
- Datenmanagement
- DataOps
- Datenarchitektur
- Orchestrierung
- Softwareentwicklung
- Fazit
- Weitere Quellen
- 7 Ingestion
- Was versteht man unter Ingestion?
- Wichtige technische Überlegungen für die Ingestionsphase
- Begrenzte und nicht begrenzte Daten
- Häufigkeit
- Synchrone und asynchrone Ingestion
- Serialisierung und Deserialisierung
- Durchsatz und Skalierbarkeit
- Zuverlässigkeit und Beständigkeit
- Nutzdaten
- Push, Pull und Polling
- Überlegungen zur Batch-Ingestion
- Snapshot oder differenzielle Extraktion
- Dateibasierter Export und Ingestion
- ETL und ELT
- Inserts, Updates und Batch-Größe
- Datenmigration
- Überlegungen zur Ingestion von Nachrichten und Streams
- Weiterentwicklung des Schemas
- Verspätet eingegangene Daten
- Reihenfolge und mehrfache Zustellung
- Replay
- Time to Live
- Nachrichtengröße
- Fehlerbehandlung und Dead-Letter-Queues
- Pull und Push für Verbraucher
- Standort
- Möglichkeiten der Dateningestion
- Direkte Datenbankverbindung
- Change Data Capture
- APIs
- Nachrichtenwarteschlangen und Event-Streaming-Plattformen
- Verwaltete Datenkonnektoren
- Verschieben von Daten mithilfe des Objektspeichers
- EDI
- Datenbanken und Dateiexport
- Probleme mit gängigen Dateiformaten
- Shell
- SSH
- SFTP und SCP
- Webhooks
- Webinterface
- Web Scraping
- Transfer Appliances für die Datenmigration
- Datenfreigabe
- Mit wem arbeiten Sie zusammen?
- Vorgelagerte Stakeholder
- Nachgelagerte Stakeholder
- Unterströmungen
- Sicherheit
- Datenmanagement
- DataOps
- Orchestrierung
- Softwareentwicklung
- Fazit
- Weitere Quellen
- 8 Queries, Modellierung und Transformation
- Queries
- Was ist eine Query?
- Ablauf einer Abfrage
- Der Abfrageoptimierer
- Die Abfrageleistung verbessern
- Abfragen von Streaming-Daten
- Datenmodellierung
- Was ist ein Datenmodell?
- Konzeptuelle, logische und physische Datenmodelle
- Normalisierung
- Methoden der Datenmodellierung für die Batch-Analyse
- Modellierung von Streaming-Daten
- Transformationen
- Batch-Transformationen
- Materialized Views, Federation und Query Virtualization
- Transformationen und Verarbeitung von Datenströmen
- Mit wem arbeiten Sie zusammen?
- Vorgelagerte Stakeholder
- Nachgelagerte Stakeholder
- Unterströmungen
- Sicherheit
- Datenmanagement
- DataOps
- Datenarchitektur
- Orchestrierung
- Softwareentwicklung
- Fazit
- Weitere Quellen
- 9 Bereitstellung von Daten für Analysen, Machine Learning und Reverse ETL
- Allgemeine Überlegungen zur Bereitstellung von Daten
- Vertrauen
- Was ist der Anwendungsfall, und wer ist der Anwender?
- Datenprodukte
- Self-Service oder nicht?
- Datendefinitionen und -logik
- Data Mesh
- Analytik
- Business Analytics
- Operational Analytics
- Embedded Analytics
- Machine Learning
- Was ein Data Engineer über ML wissen sollte
- Wege der Datenbereitstellung für Analyse und ML
- Austausch von Dateien
- Datenbanken
- Streaming-Systeme
- Abfrageverbund
- Datenfreigabe
- Semantische und metrische Schichten
- Datenbereitstellung in Notebooks
- Reverse ETL
- Mit wem arbeiten Sie zusammen?
- Unterströmungen
- Sicherheit
- Datenmanagement
- DataOps
- Datenarchitektur
- Orchestrierung
- Softwareentwicklung
- Fazit
- Weitere Quellen
-
Teil III Sicherheit, Datenschutz und die Zukunft des Data Engineering
- 10 Sicherheit und Datenschutz
- Menschen
- Die Kraft des negativen Denkens
- Seien Sie stets paranoid
- Prozesse
- Sicherheitstheater versus Sicherheitsgewohnheit
- Aktive Sicherheit
- Das Prinzip der geringsten Privilegien
- Gemeinsame Verantwortung in der Cloud
- Sichern Sie stets Ihre Daten
- Ein Beispiel für eine Sicherheitsrichtlinie
- Technologie
- Systeme für Patches und Updates
- Verschlüsselung
- Protokollieren, überwachen und warnen
- Netzwerkzugriff
- Sicherheit für einfaches Data Engineering
- Fazit
- Weitere Quellen
- 11 Die Zukunft des Data Engineering
- Der Data Engineering Lifecycle bleibt
- Geringere Komplexität und benutzerfreundliche Datenwerkzeuge
- Daten-OS in der Cloud und verbesserte Interoperabilität
- »Unternehmerisches« Data Engineering
- Titel und Zuständigkeiten verändern sich
- Vom Modern Data Stack zum Live Data Stack
- Live Data Stack
- Streaming-Pipelines und analytische Echtzeit-Datenbanken
- Die Verschmelzung von Daten und Anwendungen
- Enge Rückkopplung zwischen Anwendungen und ML
- Dark Matter Data und der Aufstieg der … Spreadsheets?
- Fazit
- Anhang A Serialisierung und Kompression – technische Details
- Anhang B Cloud-Vernetzung
- Fußnoten
- Index
- Über die Autoren
- Kolophon
Product information
- Title: Handbuch Data Engineering
- Author(s):
- Release date: July 2023
- Publisher(s): dpunkt
- ISBN: 9783960092162
You might also like
book
Mathe-Basics für Data Scientists
Um als Data Scientist erfolgreich zu sein, müssen Sie über ein solides mathematisches Grundwissen verfügen. Dieses …
book
Praktische Statistik für Data Scientists, 2nd Edition
Statistische Methoden sind ein zentraler Bestandteil der Arbeit mit Daten, doch nur wenige Data Scientists haben …
book
Werde ein Data Head
Dieses Buch ist ein umfassender Leitfaden fÃ?¼r das VerstÃ?¤ndnis von Datenanalyse am Arbeitsplatz. Alex Gutman und …
book
Data Science mit AWS
Mit diesem Buch lernen Machine-Learning- und KI-Praktiker, wie sie erfolgreich Data-Science-Projekte mit Amazon Web Services erstellen …