Vorwort

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Was ist eine Datenplattform? Warum brauchst du sie? Was beinhaltet der Aufbau einer Plattform für Daten und maschinelles Lernen (ML)? Warum solltest du deine Datenplattform in der Cloud aufbauen? Dieses Buch beginnt mit der Beantwortung dieser häufigen Fragen, die sich bei Daten- und ML-Projekten stellen. Dann stellen wir die strategische Reise vor, die wir dir empfehlen, um Daten- und ML-Fähigkeiten in deinem Unternehmen aufzubauen, zeigen dir, wie du jeden Schritt dieser Strategie umsetzen kannst, und fassen alle Konzepte in einem Modellfall zur Datenmodernisierung zusammen.

Warum brauchst du eine Cloud-Datenplattform?

Stell dir vor, der Chief Technology Officer (CTO) deines Unternehmens möchte eine neue, mobilfreundliche E-Commerce-Website erstellen. "Wir verlieren Geschäfte", behauptet er, "weil unsere Website nicht für Mobiltelefone optimiert ist, vor allem in asiatischen Sprachen."

Die Geschäftsführerin (CEO) vertraut dem CTO, wenn er sagt, dass die mobile Benutzerfreundlichkeit der aktuellen Website nicht gut ist, aber sie fragt sich, ob die Kunden, die über Mobiltelefone auf die Plattform zugreifen, ein profitables Segment der Bevölkerung darstellen. Sie ruft den Leiter des operativen Geschäfts in Asien an und fragt: "Wie hoch sind der Umsatz und die Gewinnspanne der Kunden, die über Mobiltelefone auf unsere E-Commerce-Website zugreifen? Wie wird sich unser Gesamtumsatz im nächsten Jahr verändern, wenn wir die Zahl der Kunden, die über das Handy einkaufen, erhöhen?"

Wie würde der Regionalleiter in Asien diese Frage beantworten? Man muss in der Lage sein, Kundenbesuche (um die Herkunft von HTTP-Anfragen zu bestimmen), Kundenkäufe (um zu wissen, was sie gekauft haben) und Beschaffungsinformationen (um die Kosten für diese Artikel zu bestimmen) in Beziehung zu setzen. Außerdem muss man in der Lage sein, das Wachstum in verschiedenen Marktsegmenten vorherzusagen. Müsste der Regionalleiter die IT-Abteilung bitten, die notwendigen Informationen aus all diesen verschiedenen Quellen zusammenzutragen und ein Programm zu schreiben, um diese Statistiken zu berechnen? Verfügt die IT-Abteilung über die nötige Bandbreite, um diese Frage zu beantworten, und über die Fähigkeiten, eine vorausschauende Analyse durchzuführen?

Wie viel besser wäre es, wenn die Organisation über eine Datenplattform verfügen würde? In diesem Fall sind alle Daten bereits gesammelt und bereinigt worden und stehen für die Analyse und Synthese im gesamten Unternehmen zur Verfügung. Ein Datenanalystenteam könnte einfach eine interaktive Ad-hoc-Abfrage durchführen. Mit Hilfe der eingebauten künstlichen Intelligenz (KI) könnten sie auch ganz einfach Prognosen über Einnahmen und Verkehrsaufkommen erstellen oder abrufen und so eine datengestützte Entscheidung über den Wunsch des CTO treffen, in eine neue mobilfreundliche Website zu investieren.

Eine Möglichkeit, die Frage des Geschäftsführers zu beantworten, ist die Anschaffung und der Einsatz eines Echtzeit-Tools für die Benutzerüberwachung ( ). Es gibt viele spezielle Tools, eines für jede einmalige Entscheidung wie diese. Mit einer Datenplattform kann das Unternehmen viele solcher einmaligen Fragen beantworten, ohne dass es eine ganze Reihe dieser speziellen Lösungen anschaffen und installieren muss.

Moderne Unternehmen wollen zunehmend Entscheidungen auf der Grundlage von Daten treffen. In unserem Beispiel ging es um eine einmalige Entscheidung. In vielen Fällen wollen Unternehmen jedoch wiederholt Entscheidungen treffen, und zwar auf automatisierte Weise für jede Transaktion. Zum Beispiel könnte das Unternehmen feststellen, ob ein Warenkorb Gefahr läuft, abgebrochen zu werden, und dem Kunden sofort Optionen für kostengünstige Artikel anzeigen, die in den Warenkorb gelegt werden können, um das Minimum für den kostenlosen Versand zu erreichen. Diese Artikel sollten den einzelnen Käufer ansprechen und erfordern daher eine solide Analyse- und ML-Funktion.

Um Entscheidungen auf der Grundlage von Daten treffen zu können, brauchen Unternehmen eine Daten- und ML-Plattform, die sie vereinfacht:

  • Zugang zu Daten erhalten

  • Ausführen einer interaktiven Ad-hoc-Abfrage

  • Einen Bericht erstellen

  • Automatisierte Entscheidungen auf der Grundlage von Daten treffen

  • Personalisierung der Dienstleistungen des Unternehmens

Wie du in diesem Buch sehen wirst, senken Cloud-basierte Datenplattformen die technischen Hürden für all diese Fähigkeiten: Es ist möglich, von überall aus auf Daten zuzugreifen, schnelle, umfangreiche Abfragen selbst auf Kantengeräten durchzuführen und Dienste zu nutzen, die viele Analyse- und KI-Funktionen bieten. Allerdings kann es manchmal ein komplexer Weg sein, alle dafür notwendigen Bausteine einzurichten. Ziel dieses Buches ist es, den Lesern ein besseres Verständnis der wichtigsten Konzepte, Architekturmuster und Tools zu vermitteln, die für den Aufbau moderner Cloud-Datenplattformen zur Verfügung stehen, damit sie eine bessere Sichtbarkeit und Kontrolle über ihre Unternehmensdaten erhalten, um aussagekräftigere und automatisierte Geschäftsentscheidungen zu treffen.

Wir, die Autoren dieses Buches, sind Ingenieure, die jahrelange Erfahrung darin haben, Unternehmen in einer Vielzahl von Branchen und Regionen beim Aufbau von Daten- und ML-Plattformen zu helfen. Diese Unternehmen wollen Erkenntnisse aus ihren Daten gewinnen, stehen aber oft vor der Herausforderung, alle benötigten Daten in einer Form zu erhalten, in der sie schnell analysiert werden können. Deshalb müssen sie eine moderne Daten- und ML-Plattform aufbauen.

Für wen ist dieses Buch?

Dieses Buch richtet sich an Architekten, die datengestützte Entscheidungsfindung in ihrem Unternehmen unterstützen wollen, indem sie eine Daten- und ML-Plattform mit Public-Cloud-Technologien aufbauen. Dateningenieure, Datenanalysten, Datenwissenschaftler und ML-Ingenieure werden das Buch nützlich finden, um einen konzeptionellen Überblick über die Systeme zu erhalten, die sie möglicherweise implementieren werden .

Digital native Unternehmen machen das schon seit einigen Jahren.

Bereits 2016 erklärte Twitter, dass sein Datenplattformteam "Systeme zur Unterstützung und Verwaltung der Produktion und Nutzung von Daten für eine Vielzahl von Geschäftszwecken unterhält, darunter öffentlich gemeldete Metriken, Empfehlungen, A/B-Tests, Anzeigenausrichtung usw.". Im Jahr 2016 gehörte dazu die Wartung eines der größten Hadoop-Cluster der Welt. Bis 2019 wird sich dies ändern und die Nutzung einer Cloud-nativen Data-Warehousing-Lösung unterstützen.

Etsy, um ein weiteres Beispiel zu nennen, sagt, dass ihre ML-Plattform "ML-Experimente unterstützt, indem sie die technische Infrastruktur entwickelt und wartet, auf die sich die ML-Experten von Etsy verlassen, um ML-Modelle in großem Maßstab zu entwickeln, zu trainieren und einzusetzen."

Sowohl Twitter als auch Etsy haben moderne Daten- und ML-Plattformen aufgebaut. Die Plattformen der beiden Unternehmen sind unterschiedlich, um die verschiedenen Arten von Daten, Mitarbeitern und Geschäftsfällen zu unterstützen, aber der zugrunde liegende Ansatz ist ziemlich ähnlich. In diesem Buch zeigen wir dir, wie du eine moderne Daten- und ML-Plattform aufbaust, die es Ingenieuren in deinem Unternehmen ermöglicht,:

  • Sammle Daten aus einer Vielzahl von Quellen wie betrieblichen Datenbanken, Kundenklickströmen, Internet of Things (IoT)-Geräten, Software-as-a-Service (SaaS)-Anwendungen usw.

  • Silos zwischen verschiedenen Teilen der Organisation aufbrechen

  • Verarbeite Daten während der Aufnahme oder nach dem Laden und garantiere dabei die richtigen Prozesse für Datenqualität und Governance

  • Analysiere die Daten routinemäßig oder ad hoc

  • Reiche die Daten mit vorgefertigten KI-Modellen an

  • ML-Modelle erstellen, um prädiktive Analysen durchzuführen

  • Routinemäßig oder als Reaktion auf auslösende Ereignisse oder Schwellenwerte auf die Daten reagieren

  • Erkenntnisse verbreiten und Analysen einbetten

Dieses Buch ist eine gute Einführung in architektonische Überlegungen, wenn du mit Daten und ML-Modellen in Unternehmen arbeitest, denn du wirst deine Arbeit auf der Plattform erledigen müssen, die von deinem Daten- oder ML-Plattformteam aufgebaut wurde. Wenn du also Dateningenieur/in, Datenanalyst/in, Datenwissenschaftler/in oder ML-Ingenieur/in bist, wirst du dieses Buch hilfreich finden, um einen Überblick über das Systemdesign auf hoher Ebene zu bekommen.

Obwohl wir in erster Linie Erfahrungen mit der Google Cloud gesammelt haben, bemühen wir uns um eine Cloud-unabhängige Sicht auf die Dienste, die den Architekturen zugrunde liegen, indem wir Beispiele von allen drei großen Cloud-Providern (d. h. Amazon Web Services [AWS], Microsoft Azure und Google Cloud) einbeziehen, ohne uns jedoch darauf zu beschränken.

Aufbau dieses Buches

Das Buch ist in 12 Kapitel gegliedert, die sich an den strategischen Schritten zur Innovation mit Daten orientieren, die in Kapitel 2 ausführlich erläutert werden. Das Buch schließt mit einem beispielhaften Anwendungsszenario, das zeigt, wie ein Unternehmen seine Modernisierungsreise angehen könnte.

Die visuelle Darstellung des Buchflusses ist in Abbildung P-1 zu sehen.

In Kapitel 1 wird erläutert, warum Unternehmen eine Datenplattform aufbauen sollten. Außerdem werden Ansätze, Technologietrends und Grundprinzipien von Datenplattformen erläutert.

In den Kapiteln 2 und 3 gehen wir näher darauf ein, wie man die Reise plant, die strategischen Schritte zur Innovation identifiziert und wie man den Wandel bewirkt. Hier werden wir Konzepte wie die Senkung der Gesamtbetriebskosten (TCO), die Beseitigung von Datensilos und die Nutzung von KI zur Erschließung von Innovationen diskutieren. Außerdem analysieren wir die Bausteine eines Datenlebenszyklus, erörtern, wie du dein Datenteam zusammenstellst, und empfehlen einen Einführungsplan. In Kapitel 4 fassen wir diese in einem Migrationsrahmen zusammen.

In den Kapiteln 5, 6 und 7 diskutieren wir drei der gängigsten Architekturen für Datenplattformen - Data Lakes(Kapitel 5), Data Warehouses(Kapitel 6) und Lakehouses(Kapitel 7). Wir zeigen, dass Lakehouses auf eine von zwei Arten aufgebaut werden können, indem man sich entweder von einem Data Lake oder einem Data Warehouse zu dieser Architektur entwickelt, und diskutieren, wie man sich für einen der beiden Wege entscheidet.

Book flow diagram
Abbildung P-1. Buchflussdiagramm

In den Kapiteln 8 und 9 diskutieren wir zwei gängige Erweiterungen des grundlegenden Lakehouse-Musters. Wir zeigen, wie man durch die Einführung von Streaming Patterns Entscheidungen im Kontext schneller und in Echtzeit treffen kann und wie man hybride Architekturen durch die Erweiterung auf die Kanten unterstützt.

In den Kapiteln 10 und 11 geht es darum, wie man KI/ML in Unternehmensumgebungen aufbaut und einsetzt und wie man Architekturen entwirft, um innovative Modelle zu entwerfen, aufzubauen, bereitzustellen und zu orchestrieren. In diesen Kapiteln geht es sowohl um prädiktive als auch um generative ML-Modelle.

In Kapitel 12 schließlich werfen wir einen Blick auf eine typische Datenmodernisierung mit dem Schwerpunkt auf der Migration von einer alten zu einer neuen Architektur und erklären den Prozess, mit dem ein Unternehmen eine bestimmte Lösung auswählen kann.

Wenn du ein Cloud-Architekt bist, der eine Daten- und ML-Plattform für dein Unternehmen aufbauen soll, solltest du alle Kapitel des Buches in dieser Reihenfolge lesen.

Wenn du ein Datenanalyst bist, dessen Aufgabe es ist, Berichte, Dashboards und eingebettete Analysen zu erstellen, lies die Kapitel 1, 4 bis 7 und 10.

Wenn du ein Dateningenieur bist, der Datenpipelines erstellt, lies die Kapitel 5 bis 9. Überfliege die restlichen Kapitel und benutze sie als Referenz, wenn du eine bestimmte Art von Anwendung benötigst.

Wenn du ein Datenwissenschaftler bist, der mit der Erstellung von ML-Modellen beauftragt ist, solltest du die Kapitel 7, 8, 10 und 11 lesen.

Wenn du ein ML-Ingenieur bist und dich für die Operationalisierung von ML-Modellen interessierst, solltest du die Kapitel 1 bis 9 überfliegen und die Kapitel 10 und 11 aufmerksam lesen.

In diesem Buch verwendete Konventionen

In diesem Buch werden die folgenden typografischen Konventionen verwendet:

Kursiv

Weist auf neue Begriffe, URLs, E-Mail-Adressen, Dateinamen und Dateierweiterungen hin.

Constant width

Wird für Programmlistings sowie innerhalb von Absätzen verwendet, um auf Programmelemente wie Variablen- oder Funktionsnamen, Datenbanken, Datentypen, Umgebungsvariablen, Anweisungen und Schlüsselwörter hinzuweisen.

Hinweis

Dieses Element steht für einen allgemeinen Hinweis oder Tipp.

Code-Beispiele verwenden

Ergänzendes Material steht unter https://oreil.ly/architecting-data-ml-platforms-code zum Download bereit .

Wenn du eine technische Frage oder ein Problem mit den Codebeispielen hast, sende bitte eine E-Mail an

Dieses Buch soll dir helfen, deine Arbeit zu erledigen. Wenn in diesem Buch Beispielcode angeboten wird, darfst du ihn in deinen Programmen und deiner Dokumentation verwenden. Du musst uns nicht um Erlaubnis fragen, es sei denn, du reproduzierst einen großen Teil des Codes. Wenn du zum Beispiel ein Programm schreibst, das mehrere Teile des Codes aus diesem Buch verwendet, brauchst du keine Erlaubnis. Der Verkauf oder die Verbreitung von Beispielen aus O'Reilly-Büchern erfordert jedoch eine Genehmigung. Die Beantwortung einer Frage mit einem Zitat aus diesem Buch und einem Beispielcode erfordert keine Genehmigung. Wenn du einen großen Teil des Beispielcodes aus diesem Buch in die Dokumentation deines Produkts aufnimmst, ist eine Genehmigung erforderlich.

Wir freuen uns über eine Namensnennung, verlangen sie aber in der Regel nicht. Eine Quellenangabe umfasst normalerweise den Titel, den Autor, den Verlag und die ISBN. Zum Beispiel:"Architecting Data and Machine Learning Platforms" von Marco Tranquillin, Valliappa Lakshmanan, und Firat Tekiner (O'Reilly). Copyright 2024 Marco Tranquillin, Valliappa Lakshmanan, and Firat Tekiner, 978-1-098-15161-4."

Wenn du der Meinung bist, dass die Verwendung von Code-Beispielen nicht unter die Fair-Use-Regelung oder die oben genannte Erlaubnis fällt, kannst du uns gerne unter kontaktieren

O'Reilly Online Learning

Hinweis

Seit mehr als 40 Jahren bietet O'Reilly Media Schulungen, Wissen und Einblicke in Technologie und Wirtschaft, um Unternehmen zum Erfolg zu verhelfen.

Unser einzigartiges Netzwerk von Experten und Innovatoren teilt sein Wissen und seine Erfahrung durch Bücher, Artikel und unsere Online-Lernplattform. Die Online-Lernplattform von O'Reilly bietet dir On-Demand-Zugang zu Live-Trainingskursen, ausführlichen Lernpfaden, interaktiven Programmierumgebungen und einer umfangreichen Text- und Videosammlung von O'Reilly und über 200 anderen Verlagen. Weitere Informationen erhältst du unter https://oreilly.com.

Wie du uns kontaktierst

Bitte richte Kommentare und Fragen zu diesem Buch an den Verlag:

Wir haben eine Webseite für dieses Buch, auf der wir Errata, Beispiele und zusätzliche Informationen auflisten. Du kannst diese Seite unter https://oreil.ly/architecting-data-ml-platforms aufrufen .

Neuigkeiten und Informationen über unsere Bücher und Kurse findest du unter https://oreilly.com.

Finde uns auf LinkedIn: https://linkedin.com/company/oreilly-media

Folge uns auf Twitter: https://twitter.com/oreillymedia

Schau uns auf YouTube: https://youtube.com/oreillymedia

Danksagungen

Ein Buch wie dieses zu schreiben, ist lohnend, weil du nicht nur dein Wissen, sondern auch die Früchte deiner Erfahrung weitergibst, und diese Erfahrung haben wir in den Schützengräben mit so vielen Menschen gesammelt. Das Schreiben des Buches hat uns an all diese Menschen erinnert, mit denen wir das Glück hatten, zusammenzuarbeiten, von ihnen zu lernen und mit ihnen zu feiern. Es wäre unmöglich, alle zu erwähnen, ohne die Vertraulichkeit zu verletzen, deshalb möchten wir uns einfach bei der erweiterten Data Analytics-, Data Engineering- und Data Science-Community bedanken.

Wir sind unseren großartigen technischen Gutachtern - Sami Akbay, Mike Dahlin, Kevin George, Jonathan Gerhard, Noah Gift, Sanjay Ramchandani, Joseph Reis und Vicki Reyzelman - sehr dankbar für die Durchsicht des Manuskriptentwurfs und die wertvollen Rückmeldungen und Vorschläge.

O'Reilly ist der Verlag der Wahl für technische Bücher, und die Professionalität unseres Teams ist ein Beweis dafür. Megan Laddusaw führte uns durch den Prozess der Erstellung einer überzeugenden Gliederung. Virginia Wilson und Melissa Potter kümmerten sich gewissenhaft um die gesamte Inhaltsentwicklung. Gregory Hyman unterstützte uns bei der Gestaltung einer fantastischen Endproduktion des Manuskripts und half uns sogar bei der Gestaltung aller Schemata. Vielen Dank für all eure Hilfe!

Marco: Ich möchte mich bei meiner wunderbaren Frau Lara Maria Gessica bedanken, die mir den Rücken freihält und mich die ganze Zeit über unglaublich unterstützt hat, sowie bei meinen wunderbaren Söhnen Walter und Nicholas, die mein Leben jeden Tag aufregend und unglaublich machen.

Lak: Vielen Dank an Abirami für 25 Jahre Liebe und Kameradschaft. Die Proteste werden langsam etwas dünn, aber ich werde versuchen, dass das leere Nest nicht zu vielen weiteren dieser Schreibverpflichtungen führt!

Firat: Ich widme dies den drei Frauen, die mein Leben prägen und alles möglich gemacht haben. Meiner Tochter Evre für ihre Neugierde und Freude. Meiner Frau, Yontem, für ihre Beharrlichkeit. Und meiner Mutter, Emine Ayla, für ihren unermüdlichen Glauben und ihr Vertrauen in mich.

Wir spenden 100 % der Tantiemen aus diesem Buch an Girls Who Code, eine Organisation, die es sich zur Aufgabe gemacht hat, eine große Pipeline an zukünftigen Ingenieurinnen aufzubauen. Je zentraler Daten für viele Aspekte der Wirtschaft werden, desto wichtiger ist es, dass die Belegschaft, die sie erstellt, vielfältig und integrativ ist.

Get Architektur von Plattformen für Daten und maschinelles Lernen now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.