book

Data Pipelines Pocket Reference

Name: Data Pipelines Pocket Reference
Author: James Densmore
ISBN: 9781098192129

by James Densmore

September 2024

Intermediate to advanced

276 pages

5h 36m

German

O'Reilly Media, Inc.

Read now

Unlock full access

Vorwort
Für wen dieses Buch istIn diesem Buch verwendete KonventionenCode-Beispiele verwendenO'Reilly Online LearningWie du uns kontaktierstDanksagungen
1. Einführung in Datenpipelines
Was sind Datenpipelines?Wer baut Datenpipelines auf?Grundlagen von SQL und Data WarehousingPython und/oder JavaVerteiltes RechnenGrundlegende SystemverwaltungEine zielgerichtete MentalitätWarum Datenpipelines aufbauen?Wie werden Pipelines gebaut?
2. Eine moderne Dateninfrastruktur
Vielfalt der DatenquellenQuelle SystembesitzIngestion-Schnittstelle und DatenstrukturDatenvolumenSauberkeit und Gültigkeit der DatenLatenz und Bandbreite des QuellsystemsCloud Data Warehouses und Data LakesTools für die DatenerfassungTools zur Datenumwandlung und -modellierungPlattformen zur Workflow-OrchestrierungGerichtet azyklische GraphenAnpassen deiner Dateninfrastruktur
3. Gemeinsame Muster für Datenpipelines
ETL und ELTDas Aufkommen von ELT gegenüber ETLEtLT SubpatternELT für die DatenanalyseELT für DatenwissenschaftELT für Datenprodukte und maschinelles LernenSchritte in einer Pipeline für maschinelles LernenFeedback in die Pipeline einbeziehenWeitere Informationen zu ML Pipelines
4. Daten-Ingestion: Daten extrahieren
Einrichten deiner Python-UmgebungEinrichten der Cloud-SpeicherungDaten aus einer MySQL-Datenbank extrahierenVollständige oder inkrementelle MySQL-TabellenextraktionBinäre Log-Replikation von MySQL-DatenDaten aus einer PostgreSQL-Datenbank extrahierenVollständige oder inkrementelle Postgres-TabellenextraktionReplizieren von Daten mit dem Write-Ahead LogDaten aus der MongoDB extrahierenDaten aus einer REST API extrahierenStreaming Data Ingestions mit Kafka und Debezium
5. Dateneingabe: Daten laden
Konfigurieren eines Amazon Redshift Warehouse als ZielDaten in ein Redshift Warehouse ladenInkrementelle versus volle LadungenLaden von Daten aus einem CDC-LogKonfigurieren eines Snowflake Warehouse als ZielLaden von Daten in ein Snowflake Data WarehouseDie Speicherung deiner Dateien als Datensee nutzenOpen Source FrameworksKommerzielle Alternativen
6. Daten umwandeln
Nicht kontextbezogene UmwandlungenDeduplizieren von Datensätzen in einer TabelleURLs parsenWann umwandeln? Während oder nach der Einnahme?Basismodelle für die DatenmodellierungSchlüsselbegriffe der DatenmodellierungVollständig aktualisierte Daten modellierenLangsam wechselnde Dimensionen für vollständig aktualisierte DatenModellierung inkrementell erfasster DatenModellierung von Append-Only-DatenModellierung von Veränderungserfassungsdaten
7. Pipelines orchestrieren
Gerichtet azyklische GraphenApache Airflow Einrichtung und ÜberblickInstallieren und KonfigurierenLuftstrom-DatenbankWebserver und UIZeitplannungsprogrammVollstreckerBetreiberAufbau von Luftstrom-DAGsEin einfacher DAGEin ELT Pipeline DAGZusätzliche Pipeline-AufgabenAlarme und BenachrichtigungenDatenvalidierungstestsErweiterte OrchestrierungskonfigurationenGekoppelte und nicht gekoppelte Pipeline-AufgabenWann DAGs aufgeteilt werden solltenMehrere DAGs mit Sensoren koordinierenManaged Airflow OptionenAndere Orchestrierungs-Frameworks
8. Datenvalidierung in Pipelines
Früh validieren, oft validierenQuellsystem DatenqualitätRisiken bei der DatenübernahmeErmöglichung der Validierung durch DatenanalystenEin einfacher ValidierungsrahmenValidator Framework CodeAufbau eines ValidierungstestsDurchführung eines ValidierungstestsVerwendung in einem Airflow DAGWann eine Pipeline angehalten, wann gewarnt und fortgesetzt werden sollDen Rahmen erweiternBeispiele für ValidierungstestsDoppelte Datensätze nach der IngestionUnerwartete Veränderung der Zeilenzahl nach der EinnahmeMetrische WertschwankungenKommerzielle und Open-Source-Datenvalidierungssysteme
9. Bewährte Methoden für die Instandhaltung von Pipelines
Umgang mit Änderungen in QuellsystemenAbstraktion einführenDatenkontrakte pflegenGrenzen von Schema-on-ReadSkalierung der KomplexitätStandardisierung der DateneingabeWiederverwendung der Logik des DatenmodellsSicherstellung der Integrität von Abhängigkeiten

10. Messung und Überwachung der Pipeline-Leistung
Wichtige Metriken der PipelineVorbereiten des Data WarehouseEin Schema für die DateninfrastrukturLeistungsdaten protokollieren und einspeisenEinlesen der DAG-Laufhistorie aus AirflowHinzufügen von Logging zum Data ValidatorLeistungsdaten umwandelnDAG-ErfolgsquoteVeränderung der DAG-Laufzeit im Laufe der ZeitUmfang und Erfolgsquote der ValidierungstestsOrchestrierung einer Performance PipelineDie Leistungs-DAGLeistungstransparenz
Index

Content preview from Data Pipelines Pocket Reference

Kapitel 1. Einführung in Datenpipelines

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Hinter jedem glänzenden Dashboard, maschinellen Lernmodell und jeder geschäftsverändernden Erkenntnis stehen Daten. Nicht nur Rohdaten, sondern Daten aus zahlreichen Quellen, die bereinigt, verarbeitet und kombiniert werden müssen, um einen Mehrwert zu schaffen. Die berühmte Redewendung "Daten sind das neue Öl" hat sich bewahrheitet. Genau wie beim Öl liegt der Wert der Daten in ihrem Potenzial, nachdem sie verfeinert und an den Verbraucher geliefert wurden. Und wie beim Öl braucht es effiziente Pipelines, um die Daten durch jede Stufe der Wertschöpfungskette zu bringen.

In dieser Pocket Reference wird erläutert, was diese Datenpipelines sind und wie sie in ein modernes Datenökosystem passen. Sie behandelt allgemeine Überlegungen und wichtige Entscheidungspunkte bei der Implementierung von Pipelines, z. B. Batch- oder Streaming-Dateneingabe, Aufbau oder Kauf von Tools und vieles mehr. Das Buch ist nicht auf eine bestimmte Sprache oder Plattform beschränkt, sondern geht auf die häufigsten Entscheidungen von Datenexperten ein und erörtert grundlegende Konzepte, die für selbst entwickelte Lösungen, Open-Source-Frameworks und kommerzielle Produkte gelten.

Was sind Datenpipelines?

Datenpipelines sind eine Reihe von Prozessen, die Daten aus verschiedenen Quellen zu einem Zielort bewegen und umwandeln, an dem neue ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9781098192129

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

Data Pipelines Pocket Reference

by James Densmore

Kapitel 1. Einführung in Datenpipelines

Was sind Datenpipelines?

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.