Vorwort

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

In der sich ständig weiterentwickelnden Geschäftswelt ist ein fesselndes Konzept aufgetaucht, das als Analytics Engineering bekannt ist. Es war schnell in aller Munde, wurde von Managern nachgefragt, von IT-Unternehmen vorgestellt und von den Nutzern bewundert, die sich über die damit verbundenen Möglichkeiten wunderten. Doch inmitten der Aufregung wussten viele nicht, worum es beim Analytics Engineering geht. Sie dachten, es ginge darum, Datenpipelines zu erstellen, beeindruckende Visualisierungen zu entwerfen und fortschrittliche Algorithmen zu verwenden. Oh, wie falsch sie lagen!

Du kannst dir diese außergewöhnliche Welt der Analysetechnik als eine Kreuzung zwischen dem akribischen Ermittler Sherlock Holmes, der die analytische Seite repräsentiert, und dem genialen Ingenieur Tony Stark, besser bekannt als Iron Man, der die technische Seite repräsentiert, vorstellen. Stell dir die bemerkenswerten Problemlösungsfähigkeiten von Sherlock Holmes in Kombination mit den bahnbrechenden Technologien von Iron Man vor. Diese Kombination macht die wahre Kraft und das Potenzial der analytischen Technologie aus.

Aber Vorsicht: Wenn du dachtest, Analytics Engineering beschränke sich auf Datenpipelines und Visualisierungen, hast du das tiefgründige deduktive Denken verpasst, das Sherlock Holmes als Vertreter eines Datenanalysten oder Business Analysten in die Gleichung einbringt. In diesem Bereich kreuzen sich analytische Untersuchungen mit den Techniken eines Softwareentwicklers oder Dateningenieurs, dargestellt durch Tony Stark.

Halte einen Moment inne und denke über die Bedeutung von Daten für dein Unternehmen nach. Warum suchst du sie? Die Antwort liegt im Streben nach Wissen. Analysetechnologie wird eingesetzt, um Rohdaten in verwertbare Erkenntnisse umzuwandeln, die als Grundlage für fundierte Entscheidungen dienen. Sie ist ein leistungsstarkes Unterstützungssystem, das Fakten liefert, die die Realität deines Unternehmens beleuchten. Sie trifft jedoch keine Entscheidungen für dich, sondern liefert dir die Informationen, die du brauchst, um dein Unternehmen zum Erfolg zu führen.

Bevor du dich in einen beeindruckenden Iron-Man-Anzug aus Analysetechnologien stürzt, solltest du dir die Weisheit von Sherlock Holmes zu eigen machen. Nutze seine scharfen Beobachtungsfähigkeiten, um den Kern deiner Herausforderungen zu erkennen und zu verstehen. Erliege nicht den Verlockungen von Visualisierungen und Algorithmen, nur weil andere von ihnen fasziniert sind. Erinnere dich daran, dass Analytics Engineering mehr als nur eine Technologie ist: Es ist ein Managementinstrument, das nur dann erfolgreich sein kann, wenn es auf die Strategien und Ziele deines Unternehmens abgestimmt ist. Wenn du sicherstellst, dass deine wichtigsten Leistungsindikatoren mit der Realität deines Unternehmens übereinstimmen, werden die Ergebnisse deiner Analytics-Engineering-Maßnahmen präzise und aussagekräftig sein und dich nicht enttäuschen.

Das große Abenteuer des Analytik-Engineerings beginnt nicht mit dem Aufbau von Datenpipelines oder der Auswahl fortschrittlicher Algorithmen. Nein, mein Freund, es beginnt mit einer gründlichen Selbstanalyse der Wissenslücken in deinem Unternehmen. Finde heraus, warum dieses Wissen wichtig ist und wie es genutzt werden kann, um dein Unternehmen zum Erfolg zu führen. Nutze die transformative Kraft der Analytik als deinen Kompass, der dir den Weg zum Erfolg im riesigen Datenmeer weist.

Erinnere dich bei deinem Streben nach analytischer Technik immer an die Geschichte von Sherlock Holmes. Vermeide es, ein extravagantes Flugzeug zu bauen, wenn ein bescheidenes Fahrrad ausreichen würde. Lass dich von der Komplexität des Problems und seinen kontextuellen Nuancen leiten. Erinnere dich daran, dass es bei der Analytik nicht nur um Technologie geht; sie ist ein Leuchtturm des Managements, ein unschätzbares Werkzeug, das zielgerichtet und präzise eingesetzt werden muss. Lass sie zu deinem ständigen Begleiter auf dem Weg zum Erfolg werden.

Warum wir dieses Buch geschrieben haben

Im heutigen Zeitalter der Informationsfülle ist es nicht ungewöhnlich, dass wichtiges Wissen, Konzepte und Techniken durch das rasante Wachstum der Technologie und das unerbittliche Streben nach Innovation in Vergessenheit geraten. Während dieses dynamischen Wandels können einige wichtige Konzepte manchmal versehentlich übersehen werden. Das liegt nicht daran, dass sie an Bedeutung verlieren, sondern an dem rasanten Tempo des Fortschritts.

Ein solches grundlegendes Konzept, das oft auf der Strecke bleibt, ist die Datenmodellierung im Zusammenhang mit dem Datenmanagement. Es ist erwähnenswert, dass die Datenmodellierung verschiedene Ansätze umfasst, darunter die Kimball-, die konzeptionelle, die logische und die physische Modellierung, um nur einige zu nennen. Wir wissen, dass es dringend notwendig ist, die Bedeutung der Datenmodellierung in dieser vielfältigen Landschaft hervorzuheben, und das ist einer der Hauptgründe, warum wir dieses Buch geschrieben haben. Auf diesen Seiten möchten wir die Feinheiten und verschiedenen Dimensionen der Datenmodellierung beleuchten und aufzeigen, wie sie den breiteren Bereich der Analysetechnik untermauert.

Im Laufe der Zeit ist die Bedeutung der Datenmodellierung für ein solides Datenmanagementsystem allmählich aus dem allgemeinen Bewusstsein verschwunden. Das liegt nicht daran, dass sie veraltet ist, sondern vielmehr daran, dass sich der Fokus der Branche verschoben hat. Neue Begriffe, Werkzeuge und Methoden sind aufgetaucht, wodurch die grundlegenden Prinzipien an Bedeutung verloren haben. Es fand ein Übergang von traditionellen Praktiken zu modernen Lösungen statt, die Schnelligkeit und Effizienz versprachen, was manchmal zu einem Verlust der grundlegenden Stärke führte.

Der Aufstieg der Analysetechnik führte zu einer Wiederbelebung. Dabei handelt es sich nicht nur um einen Trend mit vielen schönen Worten, sondern auch um eine Rückbesinnung auf die Grundlagen, die an die Prinzipien der Business Intelligence anknüpfen. Der Unterschied ist, dass jetzt moderne Werkzeuge, Infrastrukturen und Techniken zur Verfügung stehen, um diese Prinzipien effizienter umzusetzen.

Warum hatten wir also das Bedürfnis, unsere Gedanken zu dokumentieren? Dafür gibt es zwei Hauptgründe. Zunächst einmal ist es wichtig, den bleibenden Wert und die Bedeutung etablierter Konzepte wie der Datenmodellierung zu unterstreichen. Diese Methoden gibt es zwar schon seit einiger Zeit, aber sie bilden eine solide Grundlage für die Entwicklung moderner Techniken. Zweitens wollen wir betonen, dass Analytics Engineering kein eigenständiges Konzept ist, sondern eine natürliche Weiterentwicklung von Business Intelligence. Durch die Integration dieser beiden Bereiche können Unternehmen eine stabilere Datenwertschöpfungskette aufbauen und sicherstellen, dass ihre Daten nicht nur umfangreich, sondern auch verwertbar sind, was letztlich ihren Nutzen steigert.

Dieses Buch ist nicht nur eine sentimentale Reise in die Vergangenheit oder ein Kommentar zur Gegenwart. Es ist eine Blaupause für die Zukunft. Unser Ziel ist es, Unternehmen dabei zu helfen, ihre Grundlagen zu überdenken, die Vorteile alter und neuer Technologien zu erkennen und sie für einen umfassenden Datenmanagementansatz zu integrieren. Wir gehen näher auf die Details der Datenmodellierung und -umwandlung ein, erläutern ihre Bedeutung und untersuchen, wie sie mit modernen Analysewerkzeugen zusammenspielen. Unser Ziel ist es, unseren Lesern ein umfassendes Verständnis zu vermitteln, damit sie ihre Datenmanagementprozesse stärken und das volle Potenzial ihrer Daten nutzen können.

Für wen dieses Buch ist

Dieses Buch richtet sich an Fachleute, Studierende und Enthusiasten, die sich mit der komplexen Welt des Datenmanagements und der Analytik beschäftigen. Egal, ob du ein erfahrener Veteran bist, der sich an die Grundprinzipien der Datenmodellierung erinnert, oder ein aufstrebender Analytiker, der den Wandel von Business Intelligence zu modernem Analytics Engineering verstehen will - unsere Erzählung sorgt für Klarheit und Orientierung.

Unternehmen, die ihre Datenprozesse stärken wollen, werden in der Kombination aus bewährten Prinzipien und modernen Tools, die in diesem Buch besprochen werden, einen immensen Wert entdecken. Zusammenfassend lässt sich sagen: Wenn du die Vorteile deiner Daten voll ausschöpfen willst, indem du die Stärken der Vergangenheit mit den Innovationen der Gegenwart kombinierst, wird dich dieses Buch begleiten.

Wie dieses Buch organisiert ist

Wir haben das Buch in sechs Kapitel gegliedert:

Kapitel 1, "Analytics Engineering"

In diesem Kapitel wird die Entwicklung des Datenmanagements von traditionellen SQL-basierten Systemen bis hin zu innovativen Tools wie Apache Airflow und dbt nachgezeichnet, die jeweils die Art und Weise verändern, wie wir mit Daten umgehen und sie betrachten. Der Analytik-Ingenieur schlägt die Brücke zwischen Data Engineering und Analytik und sorgt dafür, dass unsere Erkenntnisse zuverlässig und umsetzbar sind. Trotz der Veränderungen bei den Tools und Rollen bleiben die Bedeutung und der Wert von Daten von größter Bedeutung. Dennoch bleiben Herausforderungen bestehen, wie z.B. Datenqualität und effiziente Speicherung sowie die Optimierung von Rechenressourcen für Aufgaben wie Load Balancing auf Plattformen wie Redshift oder das Entwerfen effizienter Aufträge mit angemessen dimensionierten Warehouses auf Snowflake. Die Datenmodellierung, bei der es darum geht, Daten so zu strukturieren, dass sie reale Szenarien widerspiegeln, ist der Kern dieser Lösungen.

Kapitel 2, "Datenmodellierung für Analysen"

Dieses Kapitel befasst sich mit der entscheidenden Rolle der Datenmodellierung in der heutigen analytikorientierten Landschaft. Wir untersuchen, wie sie dabei hilft, Daten für eine effiziente Analyse zu strukturieren, und erforschen die Bedeutung der Datennormalisierung für die Reduzierung von Duplikaten. Auch wenn wir die Bedeutung der Normalisierung betonen, ist es erwähnenswert, dass verschiedene Modellierungsmethoden, wie Kimball und One Big Table, je nach Anwendungsfall unterschiedliche Ansätze, einschließlich der Denormalisierung, befürworten. Wenn du diese Grundprinzipien verstehst und das breitere Spektrum an Modellierungsmethoden berücksichtigst, können Analysten die Daten effektiv untersuchen und so fundierte Erkenntnisse und Entscheidungen treffen. Ohne ein robustes Datenmodell, das je nach Kontext normalisiert oder denormalisiert ist, kann der Analyseprozess inkonsistent und ungenau sein.

Kapitel 3, "SQL für Analysen"

In diesem Kapitel wird die anhaltende Stärke von SQL als erstklassige Analysesprache untersucht. Wir beginnen mit einem Überblick über die Grundlagen von Datenbanken und darüber, wie SQL als wichtigste Sprache für die Interaktion mit Datenbanken dient. Wir werden die Nützlichkeit von Views zur Rationalisierung von Abfragen, die leistungsstarken Funktionen von Window-Funktionen für fortgeschrittene Berechnungen und die Flexibilität allgemeiner Tabellenausdrücke zur Verfeinerung komplexer Abfragen behandeln. Wir werden auch die Rolle von SQL bei der verteilten Datenverarbeitung besprechen und mit einer spannenden Anwendung von SQL beim Training von Machine Learning-Modellen abschließen.

Kapitel 4, "Datenumwandlung mit dbt"

In diesem Kapitel wird dbt über eine anfängliche Einführung hinaus detailliert erforscht. Wir werden die entscheidende Rolle von dbt im Lebenszyklus der Datenanalyse untersuchen und zeigen, wie es Rohdaten in strukturierte und zugängliche Modelle umwandelt. Wir erkunden die dbt-Projektstruktur und gehen dabei auf Funktionen wie Modellbildung, Dokumentation und Testen ein, während wir Einblicke in dbt-Artefakte wie YAML-Dateien geben. Am Ende dieses Kapitels verfügst du über ein umfassendes Verständnis von dbt, sodass du es nahtlos in deine Analyse-Workflows einbinden kannst.

Kapitel 5, "dbt Fortgeschrittene Themen"

In diesem Kapitel befassen wir uns mit den fortgeschrittenen Aspekten von dbt. Neben Views und Tabellen besprechen wir die verschiedenen Modellmaterialisierungen in dbt, einschließlich der Verwendung von ephemeren Modellen, Daten-Snapshots und der Implementierung von inkrementellen Modellen, um das ständige Laden vollständiger Daten zu umgehen. Außerdem werden wir unseren Analysecode verbessern und uns darauf konzentrieren, seine Effizienz mit Techniken wie Jinja, Makros und Paketen zu optimieren, um ihn DRY (Don't Repeat Yourself) zu halten. Schließlich stellen wir auch die semantische Schicht von dbt vor, die als Brücke zwischen Rohdaten und aussagekräftigen Erkenntnissen fungiert.

Kapitel 6, "Aufbau eines End-to-End-Analytics Engineering Use Case"

Dieses abschließende Kapitel fasst alles zusammen, was du über Analytics Engineering mit dbt und SQL gelernt hast. Nach der Vertiefung der Konzepte, Techniken und bewährten Methoden in den vorangegangenen Kapiteln wenden wir uns nun einem praktischen Ansatz zu, indem wir einen kompletten Anwendungsfall für Analytics Engineering von Grund auf entwickeln. Die Datenmodellierung für verschiedene Zwecke wird im Mittelpunkt stehen. Ziel ist es, einen ganzheitlichen Analyse-Workflow zu veranschaulichen, der von der Datenaufnahme bis zum Berichtswesen reicht, indem die Erkenntnisse aus den vorherigen Kapiteln zusammengeführt werden. Während dieses Prozesses werden wir gängige Herausforderungen meistern und Strategien für deren effektive Bewältigung vermitteln.

In diesem Buch verwendete Konventionen

In diesem Buch werden die folgenden typografischen Konventionen verwendet:

Kursiv

Weist auf neue Begriffe, URLs, E-Mail-Adressen, Dateinamen und Dateierweiterungen hin.

Constant width

Wird für Programmlistings sowie innerhalb von Absätzen verwendet, um auf Programmelemente wie Variablen- oder Funktionsnamen, Datenbanken, Datentypen, Umgebungsvariablen, Anweisungen und Schlüsselwörter hinzuweisen.

Constant width bold

Zeigt Befehle oder anderen Text an, der vom Benutzer wortwörtlich eingetippt werden sollte.

Constant width italic

Zeigt Text an, der durch vom Benutzer eingegebene Werte oder durch kontextabhängige Werte ersetzt werden soll.

Tipp

Dieses Element steht für einen Tipp oder eine Anregung.

Hinweis

Dieses Element steht für einen allgemeinen Hinweis.

Code-Beispiele verwenden

Zusätzliches Material (Code-Beispiele, Übungen usw.) steht unter https://github.com/helder-russa/dbt-analytics-engineer zum Download bereit .

Wenn du eine technische Frage oder ein Problem mit den Codebeispielen hast, sende bitte eine E-Mail an

Dieses Buch soll dir helfen, deine Arbeit zu erledigen. Wenn in diesem Buch Beispielcode angeboten wird, darfst du ihn in deinen Programmen und deiner Dokumentation verwenden. Du musst uns nicht um Erlaubnis fragen, es sei denn, du reproduzierst einen großen Teil des Codes. Wenn du zum Beispiel ein Programm schreibst, das mehrere Teile des Codes aus diesem Buch verwendet, brauchst du keine Erlaubnis. Der Verkauf oder die Verbreitung von Beispielen aus O'Reilly-Büchern erfordert jedoch eine Genehmigung. Die Beantwortung einer Frage mit einem Zitat aus diesem Buch und einem Beispielcode erfordert keine Genehmigung. Wenn du einen großen Teil des Beispielcodes aus diesem Buch in die Dokumentation deines Produkts aufnimmst, ist eine Genehmigung erforderlich.

Wir freuen uns über eine Namensnennung, verlangen sie aber in der Regel nicht. Eine Quellenangabe umfasst normalerweise den Titel, den Autor, den Verlag und die ISBN. Ein Beispiel:"Analytics Engineering with SQL and dbt " von Rui Machado und Hélder Russa (O'Reilly). Copyright 2024 Rui Pedro Machado und Hélder Russa, 978-1-098-14238-4."

Wenn du der Meinung bist, dass deine Verwendung von Codebeispielen nicht unter die Fair-Use-Regelung oder die oben genannte Erlaubnis fällt, kannst du uns gerne unter kontaktieren

O'Reilly Online Learning

Hinweis

Seit mehr als 40 Jahren bietet O'Reilly Media Schulungen, Wissen und Einblicke in Technologie und Wirtschaft, um Unternehmen zum Erfolg zu verhelfen.

Unser einzigartiges Netzwerk von Experten und Innovatoren teilt sein Wissen und seine Erfahrung durch Bücher, Artikel und unsere Online-Lernplattform. Die Online-Lernplattform von O'Reilly bietet dir On-Demand-Zugang zu Live-Trainingskursen, ausführlichen Lernpfaden, interaktiven Programmierumgebungen und einer umfangreichen Text- und Videosammlung von O'Reilly und über 200 anderen Verlagen. Weitere Informationen erhältst du unter https://oreilly.com.

Wie du uns kontaktierst

Bitte richte Kommentare und Fragen zu diesem Buch an den Verlag:

Wir haben eine Webseite für dieses Buch, auf der wir Errata, Beispiele und zusätzliche Informationen auflisten. Du kannst diese Seite unter https://oreil.ly/analytics-engineering-SQL-dbt aufrufen .

Neuigkeiten und Informationen über unsere Bücher und Kurse findest du unter https://oreilly.com.

Finde uns auf LinkedIn: https://linkedin.com/company/oreilly-media

Folge uns auf Twitter: https://twitter.com/oreillymedia

Schau uns auf YouTube: https://youtube.com/oreillymedia

Danksagungen

Ich möchte eine besondere Nachricht an meine Frau Ana und meine beiden wunderbaren Töchter Mimi und Magui senden. Ihr inspiriert mich jeden Tag, an mich selbst zu glauben und meine Träume unbeirrt zu verfolgen, denn was ich für mich erreiche, erreiche ich auch für uns. Vor allem möchte ich meinen Töchtern zeigen, dass alles möglich ist, wenn wir uns etwas vorgenommen haben. Zu guter Letzt muss ich Hélder, meinem Freund und Co-Autor, dafür danken, dass er diesen Traum am Leben hält und so viel Durchhaltevermögen hat, wie ich es noch nie bei jemandem gesehen habe.

Ich möchte meiner (zukünftigen) Frau dafür danken, dass sie immer an meiner Seite war. Ihre Geduld und ihre Worte waren in den schwierigsten Zeiten mein Fels in der Brandung. Ein besonderes Dankeschön geht auch an meine Eltern. Ohne sie und ihre Bemühungen, mir zu ermöglichen, mein Studium fortzusetzen und meine Träume zu verfolgen, wäre dieses Buch sicherlich nicht möglich gewesen. Auch ihnen gilt mein aufrichtiges Dankeschön. Schließlich möchte ich mich bei meinen anonymen und nicht ganz so anonymen Freunden und meinem Co-Autor Rui bedanken, die mir mit ihrer positiven Einstellung und ihrem konstruktiven Feedback zur Seite standen und den Inhalt dieses Buches wesentlich bereichert haben.

Get Analytics Engineering mit SQL und dbt now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.