Vorwort

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

In meiner derzeitigen Funktion bei Google arbeite ich mit Datenwissenschaftlern und Dateningenieuren aus verschiedenen Branchen zusammen, die ihre Datenverarbeitungs- und Analysemethoden in die öffentliche Cloud verlagern. Einige versuchen, die gleichen Dinge zu tun, die sie auch vor Ort tun, nur eben auf gemieteten Rechenressourcen. Die visionären Nutzer hingegen überdenken ihre Systeme, verändern die Art und Weise, wie sie mit Daten arbeiten, und sind dadurch in der Lage, schneller innovativ zu sein.

Bereits 2011 erkannte ein Artikel in der Harvard Business Review, dass einige der größten Erfolge des Cloud Computing darauf zurückzuführen sind, dass Gruppen und Gemeinschaften auf eine Art und Weise zusammenarbeiten können, die vorher nicht möglich war. Diese Erkenntnis ist inzwischen viel weiter verbreitet. Eine MIT-Umfrage aus dem Jahr 2017 ergab, dass mehr Befragte (45 %) eine höhere Agilität als Kosteneinsparungen (34 %) als Grund für den Wechsel in die öffentliche Cloud angaben. Allerdings wird dies noch nicht überall erreicht. McKinsey schätzte im Jahr 2021, dass Unternehmen fast 1 Billion Dollar an Wert zurücklassen, weil sie die öffentliche Cloud nicht als Quelle für transformative Werte betrachten. Daher ist die Fähigkeit, an einem Data-Science-Projekt in der Cloud zu arbeiten, eine Fähigkeit, in die es sich lohnt zu investieren.

In diesem Buch gehen wir durch ein Beispiel für eine Cloud-native, transformative und kollaborative Art der Datenwissenschaft. Du lernst, wie du eine durchgängige Datenpipeline implementierst: Wir beginnen mit der serverlosen Datenaufnahme und arbeiten uns über Datenexploration, Dashboards, relationale Datenbanken und Streaming-Daten bis hin zum Training und der Erstellung eines funktionierenden Machine-Learning-Modells vor. Ich gehe auf all diese Aspekte datenbasierter Dienste ein, weil Dateningenieure an der Gestaltung der Dienste, der Entwicklung der statistischen und maschinellen Lernmodelle und ihrer Implementierung in großem Maßstab und in Echtzeit beteiligt sein werden.

Für wen dieses Buch ist

Wenn du Computer benutzt, um mit Daten zu arbeiten, ist dieses Buch genau das Richtige für dich. Vielleicht nennst du dich heute Datenanalyst/in, Datenbankadministrator/in, Dateningenieur/in, Datenwissenschaftler/in oder Systemprogrammierer/in. Auch wenn deine Rolle heute enger gefasst ist (vielleicht machst du nur Datenanalyse, nur Modellbildung oder nur DevOps), möchtest du deine Flügel ein wenig ausbreiten - du möchtest lernen, wie man Data-Science-Modelle erstellt und wie man sie im großen Maßstab in Produktionssystemen implementiert.

Die Google Cloud Platform wurde entwickelt, um dich die Infrastruktur vergessen zu lassen. Die wichtigsten Datendienste - Google BigQuery, Cloud Dataflow, Cloud Pub/Sub und Vertex AI - sind alle serverlos und automatisch skalierbar. Wenn du eine Abfrage an BigQuery stellst, wird sie auf Tausenden von Knoten ausgeführt, und du bekommst dein Ergebnis zurück; du musst keinen Cluster aufsetzen oder Software installieren. In ähnlicher Weise kannst du in Cloud Dataflow, wenn du eine Datenpipeline übermittelst, und in Vertex AI, wenn du einen Machine-Learning-Auftrag übermittelst, Daten in großem Umfang verarbeiten und Modelle in großem Umfang trainieren, ohne dich um die Cluster-Verwaltung oder die Wiederherstellung nach einem Ausfall zu kümmern. Cloud Pub/Sub ist ein globaler Nachrichtendienst, der sich automatisch an den Durchsatz und die Anzahl der Abonnenten und Publisher anpasst, ohne dass du etwas dafür tun musst. Selbst wenn du Open-Source-Software wie Apache Spark einsetzt, die für den Betrieb in einem Cluster ausgelegt ist, macht Google Cloud Platform es dir mit auftragsspezifischen Clustern und serverlosem Spark leicht. Dank dieser auftragsspezifischen Infrastruktur musst du nicht befürchten, dass du zu viel Hardware bereitstellst oder dass dir die Kapazität für einen Auftrag ausgeht, wenn du ihn brauchst. Außerdem werden die Daten sowohl im Ruhezustand als auch bei der Übertragung verschlüsselt und sicher aufbewahrt. Als Datenwissenschaftler/in ist es unglaublich befreiend, sich nicht um die Infrastruktur kümmern zu müssen.

Diese autoskalierten, vollständig verwalteten Dienste erleichtern die Implementierung von Data-Science-Modellen im großen Maßstab - deshalb müssen Data Scientists ihre Modelle nicht mehr an Data Engineers abgeben. Stattdessen können sie einen Data-Science-Workload schreiben, ihn an die Cloud übermitteln und ihn automatisch in einer autoskalierten Weise ausführen lassen. Gleichzeitig werden die Data-Science-Pakete immer einfacher und übersichtlicher. So ist es für einen Ingenieur extrem einfach geworden, Daten zu sammeln und ein vorgefertigtes Modell zu verwenden, um ein erstes (und oft sehr gutes) Modell zum Laufen zu bringen. Mit gut durchdachten Paketen und einfach zu nutzenden APIs musst du die esoterischen Details der Data-Science-Algorithmen nicht kennen - du musst nur wissen, was die einzelnen Algorithmen tun und wie man sie miteinander verbindet, um realistische Probleme zu lösen. Diese Konvergenz zwischen Data Science und Data Engineering ist der Grund, warum du deine Flügel über deine aktuelle Rolle hinaus ausbreiten kannst.

Anstatt dieses Buch einfach von vorne bis hinten durchzulesen, empfehle ich dir, mir zu folgen und den Code auszuprobieren. Der vollständige Quellcode für die End-to-End-Pipeline, die ich in diesem Buch erstellt habe, ist auf GitHub zu finden. Erstelle ein Google Cloud Platform-Projekt und versuche nach dem Lesen jedes Kapitels, das zu wiederholen, was ich gemacht habe, indem du dich auf den Code und die README.md-Datei in jedem Ordner des GitHub-Repositorys beziehst.

Befolge die Anweisungen in den README.md-Dateien auf GitHub, um den Code auszuprobieren. Die Codeschnipsel im Buch sind oft unvollständig - zum Beispiel kann es sein, dass ich einige Argumente für Cloud-Befehle aus Gründen der Übersichtlichkeit oder Prägnanz weglasse.

Beachte, dass dies kein Nachschlagewerk ist - das beste Nachschlagewerk zu Google Cloud ist die Dokumentation, und es hat wenig Sinn, diese in einem Buch einfach zu reproduzieren. Stattdessen zeigt dir dieses Buch, wie du eine Vielzahl von Tools gemeinsam zur Lösung eines Problems einsetzen kannst. Mein Ziel ist es, dir beizubringen, wie du über ein Problem nachdenken kannst, um es mit Google Cloud zu lösen, und nicht, ein bestimmtes Produkt umfassend zu behandeln.

Wenn dich ein Thema in diesem Buch fasziniert und du tiefer eintauchen möchtest, findest du am Ende jedes Kapitels ein paar ausgewählte Ressourcen, die die im Kapitel behandelten Themen vertiefen. Fühle dich nicht verpflichtet, jedes Video anzusehen oder jeden Artikel zu lesen.

In diesem Buch verwendete Konventionen

In diesem Buch werden die folgenden typografischen Konventionen verwendet:

Kursiv
Weist auf neue Begriffe, URLs, E-Mail-Adressen, Dateinamen und Dateierweiterungen hin.
Constant width
Wird für Programmlistings sowie innerhalb von Absätzen verwendet, um auf Programmelemente wie Variablen- oder Funktionsnamen, Datenbanken, Datentypen, Umgebungsvariablen, Anweisungen und Schlüsselwörter hinzuweisen.
Constant width bold
Zeigt Befehle oder anderen Text an, der vom Benutzer wortwörtlich eingetippt werden sollte.
Konstante Breite kursiv
Zeigt Text an, der durch vom Benutzer eingegebene Werte oder durch kontextabhängige Werte ersetzt werden soll.

Dieses Element steht für einen Tipp oder eine Anregung.

Dieses Element steht für einen allgemeinen Hinweis.

Dieses Element weist auf eine Warnung oder einen Warnhinweis hin.

Code-Beispiele verwenden

Zusätzliches Material (Code-Beispiele, Übungen usw.) steht unter https://github.com/GoogleCloudPlatform/data-science-on-gcp zum Download bereit .

Wenn du eine technische Frage oder ein Problem mit den Codebeispielen hast, schreibe bitte eine E-Mail an

Dieses Buch soll dir helfen, deine Arbeit zu erledigen. Wenn in diesem Buch Beispielcode angeboten wird, darfst du ihn in deinen Programmen und deiner Dokumentation verwenden. Du musst uns nicht um Erlaubnis fragen, es sei denn, du reproduzierst einen großen Teil des Codes. Wenn du zum Beispiel ein Programm schreibst, das mehrere Teile des Codes aus diesem Buch verwendet, brauchst du keine Erlaubnis. Der Verkauf oder die Verbreitung von Beispielen aus O'Reilly-Büchern erfordert jedoch eine Genehmigung. Die Beantwortung einer Frage mit einem Zitat aus diesem Buch und einem Beispielcode erfordert keine Genehmigung. Wenn du einen großen Teil des Beispielcodes aus diesem Buch in die Dokumentation deines Produkts aufnimmst, ist eine Genehmigung erforderlich.

Wir schätzen die Namensnennung, verlangen sie aber nicht. Eine Quellenangabe umfasst normalerweise den Titel, den Autor, den Verlag und die ISBN. Ein Beispiel: "Data Science on the Google Cloud Platform von Valliappa Lakshmanan (O'Reilly). Copyright 2022 Google LLC, 978-1-098-11895-2."

Wenn du der Meinung bist, dass die Verwendung von Code-Beispielen nicht unter die Fair-Use-Regelung oder die oben genannte Erlaubnis fällt, kannst du uns gerne unter kontaktieren

O'Reilly Online Learning

Seit mehr als 40 Jahren bietet O'Reilly Media Schulungen, Wissen und Einblicke in Technologie und Wirtschaft, um Unternehmen zum Erfolg zu verhelfen.

Unser einzigartiges Netzwerk von Experten und Innovatoren teilt sein Wissen und seine Erfahrung durch Bücher, Artikel und unsere Online-Lernplattform. Die Online-Lernplattform von O'Reilly bietet dir On-Demand-Zugang zu Live-Trainingskursen, ausführlichen Lernpfaden, interaktiven Programmierumgebungen und einer umfangreichen Text- und Videosammlung von O'Reilly und über 200 anderen Verlagen. Weitere Informationen erhältst du unter https://oreilly.com.

Wie du uns kontaktierst

Bitte richte Kommentare und Fragen zu diesem Buch an den Verlag:

  • O'Reilly Media, Inc.
  • 1005 Gravenstein Highway Nord
  • Sebastopol, CA 95472
  • 800-998-9938 (in den Vereinigten Staaten oder Kanada)
  • 707-829-0515 (international oder lokal)
  • 707-829-0104 (Fax)

Wir haben eine Webseite für dieses Buch, auf der wir Errata, Beispiele und zusätzliche Informationen auflisten. Du kannst diese Seite unter https://oreil.ly/data-science-on-gcp aufrufen .

Schreib eine E-Mail an , um Kommentare oder technische Fragen zu diesem Buch zu stellen.

Neuigkeiten und Informationen über unsere Bücher und Kurse findest du unter https://oreilly.com.

Du findest uns auf Facebook: https://facebook.com/oreilly.

Folge uns auf Twitter: https://twitter.com/oreillymedia.

Sieh uns auf YouTube: https://www.youtube.com/oreillymedia.

Danksagungen

Als ich 2014 meinen Job bei Google antrat, hatte ich die öffentliche Cloud lediglich als eine Möglichkeit genutzt, Infrastruktur zu mieten - also habe ich virtuelle Maschinen aufgesetzt, die benötigte Software auf diesen Maschinen installiert und dann meine Datenverarbeitungsaufträge mit meinem üblichen Arbeitsablauf ausgeführt. Glücklicherweise erkannte ich, dass Googles Big Data Stack anders war, und so machte ich mich auf den Weg, um zu lernen, wie ich alle Daten- und Machine Learning-Tools der Google Cloud Platform optimal nutzen kann.

Am besten lerne ich, indem ich Code schreibe, und genau das habe ich getan. Als eine Python-Treffen-Gruppe mich bat, über die Google Cloud Platform zu sprechen, habe ich den Code, den ich geschrieben hatte, vorgestellt. Es stellte sich heraus, dass es für die Teilnehmer sehr lehrreich war, den Code durchzugehen, um ein End-to-End-System zu bauen und dabei verschiedene Ansätze für ein Data Science-Problem zu vergleichen. Ich schrieb die Essenz meines Vortrags als Buchvorschlag auf und schickte ihn an O'Reilly Media.

Ein Buch muss natürlich viel tiefgründiger sein als ein 60-minütiger Code-Walkthrough. Stell dir vor, du kommst eines Tages zur Arbeit und findest eine E-Mail von einem neuen Mitarbeiter deines Unternehmens vor, der noch keine sechs Monate im Unternehmen ist. Irgendwie hat er beschlossen, ein Buch über die ziemlich ausgeklügelte Plattform zu schreiben, an deren Aufbau du beteiligt warst, und bittet dich um Hilfe. Er gehört nicht zu deinem Team, ihm zu helfen gehört nicht zu deinen Aufgaben und er sitzt nicht einmal im selben Büro wie du. Was ist deine Antwort? Würdest du dich freiwillig melden?

Was Google zu einem so tollen Arbeitsplatz macht, sind die Menschen, die hier arbeiten. Es ist ein Beweis für die Unternehmenskultur, dass so viele Menschen - Ingenieure, technische Leiter, Produktmanager, Lösungsarchitekten, Datenwissenschaftler, Rechtsberater, Direktoren - in so vielen verschiedenen Teams bereitwillig ihr Fachwissen an jemanden weitergegeben haben, den sie noch nie getroffen haben (tatsächlich habe ich viele dieser Menschen noch immer nicht persönlich getroffen). Dieses Buch ist deshalb unermesslich besser, weil (in alphabetischer Reihenfolge der Nachnamen) William Brockman, Mike Dahlin, Tony DiLoreto, Bob Evans, Roland Hess, Brett Hesterberg, Dennis Huo, Chad Jennings, Puneith Kaul, Dinesh Kulkarni, Manish Kurse, Reuven Lax, Jonathan Liu, James Malone, Dave Oleson, Mosha Pasumansky, Kevin Peterson, Olivia Puerta, Reza Rokni, Karn Seth, Sergei Sokolenko, und Amy Unruh. Ein besonderer Dank geht an Mike Dahlin, Manish Kurse und Olivia Puerta für die Durchsicht jedes einzelnen Kapitels. Als die erste Ausgabe des Buches im Early Access war, erhielt ich wertvolle Fehlerberichte von Anthonios Partheniou und David Schwantner. Natürlich bin ich für alle Fehler verantwortlich, die noch vorhanden sind.

Während des Schreibens des Buches bin ich ein paar Mal komplett stecken geblieben. Manchmal waren die Probleme technischer Natur. Danke an (in alphabetischer Reihenfolge) Ahmet Altay, Eli Bixby, Ben Chambers, Slava Chernyak, Marián Dvorský, Robbie Haertel, Felipe Hoffa, Amir Hormati, Qiming (Bradley) Jiang, Kenneth Knowles, Nikhil Kothari und Chris Meyers, die mir den Weg gezeigt haben. Ein anderes Mal lagen die Probleme darin, die Unternehmensrichtlinien zu verstehen oder Zugang zum richtigen Team, Dokument oder zur richtigen Statistik zu bekommen. Dieses Buch wäre um einiges ärmer, wenn mir diese Kolleginnen und Kollegen nicht an kritischen Stellen geholfen hätten (wieder in alphabetischer Reihenfolge): Louise Byrne, Apurva Desai, Rochana Golani, Fausto Ibarra, Jason Martin, Neal Mueller, Philippe Poutonnet, Brad Svee, Jordan Tigani, William Vampenebe, und Miles Ward. Wir danken euch allen für eure Hilfe und Ermutigung.

Fünf Jahre später bin ich immer noch voller Demut über das unglaubliche Talent und die Zusammenarbeit meiner Kollegen. Sagar Baliyara, Filipe Gracio, Polong Lin und Krishnan Saidapet (in alphabetischer Reihenfolge der Nachnamen) haben ein wachsames Auge auf die zweite Ausgabe geworfen und viele tolle Vorschläge gemacht.

Ich danke auch dem O'Reilly-Team - Marie Beaugureau, Kristen Brown, Ben Lorica, Tim McGovern, Rachel Roumeliotis und Heather Scherer - dafür, dass sie an mich geglaubt haben und mir den Weg vom Entwurf zur ersten Auflage des Buches so leicht gemacht haben. Die Erstellung der zweiten Auflage wurde durch Katherine Tozer, Michele Cronin und Tom Sullivan erheblich vereinfacht.

Die zweite Auflage hat auch stark von neuen Perspektiven von außen profitiert. Colin Dietrich hat einen Großteil des Codes im Buch überprüft und zahlreiche Pull Requests für das GitHub-Repository eingereicht. Joy Payton schlug viele Verbesserungen vor, um das Buch für Anfänger in der Datenwissenschaft leichter zugänglich zu machen. Michael Hopkins und Margaret Maynard-Reid untersuchten das Buch auf Bereiche, die aktualisiert werden mussten. Vielen Dank auch an die Leserinnen und Leser der ersten Ausgabe, die das Buch auf Amazon rezensiert haben, Probleme auf GitHub gemeldet haben und mich per E-Mail und auf Twitter kontaktiert haben. Euer Feedback hat diese Ausgabe des Buches erheblich verbessert.

Und schließlich, und das ist das Wichtigste, danke ich Abirami, Sidharth und Sarada für euer Verständnis und eure Geduld, auch wenn ich mich in das Schreiben und Programmieren vertieft habe. Dank euch hat sich das alles gelohnt.

Ich spende 100% der Tantiemen aus diesem Buch an United Way of King County, wo ich lebe. Ich möchte dich ermutigen, dich bei einer lokalen Wohltätigkeitsorganisation zu engagieren, um zu spenden, ehrenamtlich zu arbeiten und etwas zu unternehmen, um die größten Herausforderungen deiner Gemeinde zu lösen.

Get Data Science auf der Google Cloud Platform, 2. now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.