Vorwort

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Datenpipelines sind die Grundlage für den Erfolg von Datenanalyse und maschinellem Lernen. Das Verschieben von Daten aus zahlreichen, unterschiedlichen Quellen und die Verarbeitung dieser Daten, um sie in einen Kontext zu bringen, ist der Unterschied zwischen Daten und deren Nutzung.

Ich arbeite seit mehr als 10 Jahren als Datenanalyst, Dateningenieur und Führungskraft im Bereich der Datenanalyse. In dieser Zeit habe ich rasante Veränderungen und Wachstum in diesem Bereich erlebt. Das Aufkommen von Cloud-Infrastrukturen und insbesondere von Cloud-Data-Warehouses hat die Möglichkeit geschaffen, die Art und Weise, wie Datenpipelines entworfen und implementiert werden, zu überdenken.

Dieses Buch beschreibt die Grundlagen und bewährten Methoden für den Aufbau von Datenpipelines im modernen Zeitalter. Ich stütze meine Meinungen und Beobachtungen auf meine eigenen Erfahrungen sowie auf die von Branchenführern, die ich kenne und denen ich folge.

Mein Ziel ist es, dass dieses Buch sowohl als Vorlage als auch als Nachschlagewerk dient. Auch wenn deine Bedürfnisse spezifisch für dein Unternehmen und die Probleme sind, die du lösen willst, habe ich mit Variationen dieser Grundlagen schon viele Male Erfolg gehabt. Ich hoffe, dass dieses Buch eine wertvolle Ressource auf deinem Weg zum Aufbau und zur Pflege von Datenpipelines ist, die deine Datenorganisation voranbringen.

Für wen dieses Buch ist

Dieses Buch richtet sich in erster Linie an aktuelle und angehende Data Engineers sowie an Mitglieder von Analyseteams, die verstehen wollen, was Datenpipelines sind und wie sie implementiert werden. Zu ihren Berufsbezeichnungen gehören Data Engineers, Technical Leads, Data Warehouse Engineers, Analytics Engineers, Business Intelligence Engineers und Director/VP-Leader Analytics.

Ich gehe davon aus, dass du ein grundlegendes Verständnis von Data Warehousing-Konzepten hast. Um die besprochenen Beispiele umzusetzen, solltest du dich mit SQL-Datenbanken, REST-APIs und JSON auskennen. Du solltest eine Skriptsprache wie z.B. Python beherrschen. Grundlegende Kenntnisse der Linux-Befehlszeile und mindestens eine Cloud-Computing-Plattform sind ebenfalls ideal.

Alle Codebeispiele sind in Python und SQL geschrieben und nutzen viele Open-Source-Bibliotheken. Ich nutze Amazon Web Services (AWS), um die im Buch beschriebenen Techniken zu demonstrieren, und die AWS-Dienste werden in vielen der Codebeispiele verwendet. Wenn möglich, weise ich auch auf ähnliche Dienste bei anderen großen Cloud-Providern wie Microsoft Azure und Google Cloud Platform (GCP) hin. Alle Codebeispiele können sowohl für den Cloud-Provider deiner Wahl als auch für die Nutzung vor Ort angepasst werden.

In diesem Buch verwendete Konventionen

In diesem Buch werden die folgenden typografischen Konventionen verwendet:

Kursiv

Weist auf neue Begriffe, URLs, E-Mail-Adressen, Dateinamen und Dateierweiterungen hin.

Constant width

Wird für Programmlistings sowie innerhalb von Absätzen verwendet, um auf Programmelemente wie Variablen- oder Funktionsnamen, Datenbanken, Datentypen, Umgebungsvariablen, Anweisungen und Schlüsselwörter hinzuweisen.

Constant width bold

Zeigt Befehle oder anderen Text an, der vom Benutzer wortwörtlich eingetippt werden sollte.

Constant width italic

Zeigt Text an, der durch vom Benutzer eingegebene Werte oder durch kontextabhängige Werte ersetzt werden soll.

Code-Beispiele verwenden

Zusätzliches Material (Code-Beispiele, Übungen usw.) steht unter https://oreil.ly/datapipelinescode zum Download bereit .

Wenn du eine technische Frage oder ein Problem mit den Codebeispielen hast, sende bitte eine E-Mail an

Dieses Buch soll dir helfen, deine Arbeit zu erledigen. Wenn in diesem Buch Beispielcode angeboten wird, darfst du ihn in deinen Programmen und deiner Dokumentation verwenden. Du musst uns nicht um Erlaubnis fragen, es sei denn, du reproduzierst einen großen Teil des Codes. Wenn du zum Beispiel ein Programm schreibst, das mehrere Teile des Codes aus diesem Buch verwendet, brauchst du keine Erlaubnis. Der Verkauf oder die Verbreitung von Beispielen aus O'Reilly-Büchern erfordert jedoch eine Genehmigung. Die Beantwortung einer Frage mit einem Zitat aus diesem Buch und einem Beispielcode erfordert keine Genehmigung. Wenn du einen großen Teil des Beispielcodes aus diesem Buch in die Dokumentation deines Produkts aufnimmst, ist eine Genehmigung erforderlich.

Wir freuen uns über eine Namensnennung, verlangen sie aber in der Regel nicht. Eine Quellenangabe umfasst normalerweise den Titel, den Autor, den Verlag und die ISBN. Zum Beispiel: "Data Pipelines Pocket Reference von James Densmore (O'Reilly). Copyright 2021 James Densmore, 978-1-492-08783-0."

Wenn du der Meinung bist, dass deine Verwendung von Codebeispielen nicht unter die Fair-Use-Regelung oder die oben genannte Erlaubnis fällt, kannst du uns gerne kontaktieren:

O'Reilly Online Learning

Hinweis

Seit mehr als 40 Jahren bietet O'Reilly Media Schulungen, Wissen und Einblicke in Technologie und Wirtschaft, um Unternehmen zum Erfolg zu verhelfen.

Unser einzigartiges Netzwerk von Experten und Innovatoren teilt sein Wissen und seine Erfahrung durch Bücher, Artikel und unsere Online-Lernplattform. Die Online-Lernplattform von O'Reilly bietet dir On-Demand-Zugang zu Live-Trainingskursen, ausführlichen Lernpfaden, interaktiven Programmierumgebungen und einer umfangreichen Text- und Videosammlung von O'Reilly und über 200 anderen Verlagen. Weitere Informationen erhältst du unter http://oreilly.com.

Wie du uns kontaktierst

Bitte richte Kommentare und Fragen zu diesem Buch an den Verlag:

  • O'Reilly Media, Inc.
  • 1005 Gravenstein Highway Nord
  • Sebastopol, CA 95472
  • 800-998-9938 (in den Vereinigten Staaten oder Kanada)
  • 707-829-0515 (international oder lokal)
  • 707-829-0104 (Fax)

Wir haben eine Webseite für dieses Buch, auf der wir Errata, Beispiele und zusätzliche Informationen auflisten. Du kannst diese Seite unter https://oreil.ly/data-pipelines-pocket-ref aufrufen .

Schreib eine E-Mail an , um Kommentare oder technische Fragen zu diesem Buch zu stellen.

Neuigkeiten und Informationen über unsere Bücher und Kurse findest du unter http://oreilly.com.

Finde uns auf Facebook: http://facebook.com/oreilly

Folge uns auf Twitter: http://twitter.com/oreillymedia

Schau uns auf YouTube: http://www.youtube.com/oreillymedia

Danksagungen

Vielen Dank an alle bei O'Reilly, die dieses Buch möglich gemacht haben, insbesondere Jessica Haberman und Corbin Collins. Das unschätzbare Feedback von Joy Payton, Gordon Wong und Scott Haines, drei fantastischen technischen Prüfern, hat zu entscheidenden Verbesserungen geführt. Und schließlich danke ich meiner Frau Amanda, die mich von Anfang an ermutigt hat, dieses Buch zu schreiben, und meinem Hund Izzy, der während unzähliger Stunden an meiner Seite saß.

Get Data Pipelines Pocket Reference now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.