Vorwort

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Wir haben dieses Buch für Data Engineers und Data Scientists geschrieben, die Machine Learning Systeme/Modelle entwickeln, die sie in die Produktion überführen wollen. Wenn du schon einmal die Erfahrung gemacht hast, dass du ein hervorragendes Modell trainiert hast und dich dann fragst, wie du es in der Produktion einsetzen oder auf dem neuesten Stand halten sollst, dann ist dieses Buch genau das Richtige für dich. Wir hoffen, dass es dir die Werkzeuge an die Hand gibt, um Untitled_5.ipynb durch etwas zu ersetzen, das in der Produktion relativ zuverlässig funktioniert.

Dieses Buch ist nicht als erste Einführung in das maschinelle Lernen gedacht. Der nächste Abschnitt verweist auf einige Ressourcen, die nützlich sein können, wenn du gerade erst mit dem maschinellen Lernen beginnst.

Unsere Vermutung über dich

Dieses Buch geht davon aus, dass du entweder weißt, wie man Modelle lokal trainiert, oder mit jemandem zusammenarbeitest, der das weiß. Wenn beides nicht zutrifft, gibt es viele hervorragende Einführungsbücher über maschinelles Lernen, die dir den Einstieg erleichtern, darunter Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow, 2nd Edition, von Aurélien Géron (O'Reilly).

Unser Ziel ist es, dir beizubringen, wie du maschinelles Lernen auf wiederholbare Art und Weise durchführst und wie du das Training und den Einsatz deiner Modelle automatisieren kannst. Ein ernsthaftes Problem dabei ist, dass dieses Ziel eine breite Palette von Themen umfasst, und es ist mehr als vernünftig, dass du vielleicht nicht mit allen vertraut bist.

Da wir nicht auf jedes Thema eingehen können, möchten wir dir eine kurze Liste unserer Lieblingsfibeln zu einigen der Themen geben, die du hier behandeln wirst:

Python for Data Analysis, 2. Auflage, von Wes McKinney (O'Reilly)
Data Science from Scratch, 2. Auflage, von Joel Grus (O'Reilly)
Einführung in maschinelles Lernen mit Python von Andreas C. Müller und Sarah Guido (O'Reilly)
Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow, 2nd Edition, von Aurélien Géron (O'Reilly)
Kubernetes: Up and Running von Brendan Burns et al. (O'Reilly)
Learning Spark von Holden Karau et al. (O'Reilly)
Feature Engineering for Machine Learning von Alice Zheng und Amanda Casari (O'Reilly)
Building Machine Learning Pipelines von Hannes Hapke und Catherine Nelson (O'Reilly)
Apache Mahout: Jenseits von MapReduce von Dmitriy Lyubimov und Andrew Palumbo (CreateSpace)
R Cookbook, 2nd Edition, von J. D. Long und Paul Teetor (O'Reilly)
Serving Machine Learning Models von Boris Lublinsky (O'Reilly)
"Continuous Delivery for Machine Learning" von Danilo Sato et al.
Interpretierbares maschinelles Lernen von Christoph Molnar (im Selbstverlag)
"A Gentle Introduction to Concept Drift in Machine Learning" von Jason Brownlee
"Model Drift and Ensuring a Healthy Machine Learning Lifecycle" von A. Besir Kurtulmus
"The Rise of the Model Servers" von Alex Vikati
"An Overview of Model Explainability in Modern Machine Learning" von Rui Aguiar
Machine Learning with Python Cookbook von Chris Albon (O'Reilly)
Machine Learning Flashcards von Chris Albon

Natürlich gibt es noch viele andere, aber diese sollten dir den Einstieg erleichtern. Lass dich von dieser Liste nicht überwältigen - du musst sicherlich kein Experte in jedem dieser Themen sein, um Kubeflow effektiv einzusetzen und zu verwalten. Kubeflow ist sogar dazu da, viele dieser Aufgaben zu vereinfachen. Vielleicht gibt es aber auch Themen, in die du tiefer einsteigen möchtest, und deshalb ist diese Liste als "Einstiegsliste" zu verstehen.

Container und Kubernetes sind ein breites, sich schnell entwickelndes Praxisfeld. Wenn du dein Wissen über Kubernetes vertiefen willst, empfehlen wir dir die folgenden Seiten:

Cloud Native Infrastructure von Justin Garrison und Kris Nova (O'Reilly)
Kubernetes: Up and Running von Brendan Burns et al. (O'Reilly)

Deine Verantwortung als Praktiker/in

Dieses Buch hilft dir, deine Machine-Learning-Modelle in der Produktion einzusetzen, um reale Probleme zu lösen. Reale Probleme mit maschinellem Lernen zu lösen ist großartig, aber wenn du deine Fähigkeiten anwendest, solltest du dich auch an die Auswirkungen erinnern.

Zunächst musst du sicherstellen, dass deine Modelle hinreichend genau sind. Hierfür gibt es in Kubeflow großartige Tools, die in "Training und Einsatz eines Modells" beschrieben werden . Auch die besten Tools können dich nicht vor allen Fehlern bewahren - zum Beispiel die Abstimmung der Hyperparameter auf demselben Datensatz, um die endgültigen Ergebnisse der Kreuzvalidierung zu melden.

Selbst Modelle mit hoher Vorhersagekraft können unbeabsichtigte Effekte und Verzerrungen haben, die in der regulären Trainingsauswertungsphase vielleicht nicht auffallen. Unbeabsichtigte Verzerrungen sind oft schwer zu entdecken, aber es gibt viele Geschichten (z. B. die auf maschinellem Lernen basierende Rekrutierungsmaschine von Amazon, die sich als sehr voreingenommen erwies und beschloss, nur Männer einzustellen), die die tiefgreifenden potenziellen Auswirkungen unserer Arbeit zeigen. Wenn du diese Probleme nicht frühzeitig ansprichst, kann das dazu führen, dass du deine gesamte Arbeit aufgeben musst, wie die Entscheidung von IBM, sein Gesichtserkennungsprogramm einzustellen, und ähnliche Pausen in der gesamten Branche gezeigt haben, nachdem die Auswirkungen rassistischer Voreingenommenheit bei der Gesichtserkennung in den Händen der Strafverfolgungsbehörden deutlich wurden.

Selbst scheinbar unvoreingenommene Daten wie rohe Kaufdatensätze können starke Verzerrungen aufweisen, die zu falschen Empfehlungen oder Schlimmerem führen. Nur weil ein Datensatz öffentlich und weithin verfügbar ist, bedeutet das nicht, dass er unvoreingenommen ist. Die bekannte Praxis der Worteinbettung ist nachweislich mit vielen Verzerrungen behaftet, z. B. Sexismus, Anti-LGBTQ und Anti-Einwanderer. Wenn du dir einen neuen Datensatz ansiehst, musst du unbedingt nach Beispielen für Verzerrungen in deinen Daten suchen und versuchen, diese so weit wie möglich abzuschwächen. Bei den beliebtesten öffentlichen Datensätzen werden in der Forschung oft verschiedene Techniken diskutiert, die du für deine eigene Arbeit nutzen kannst.

Auch wenn dieses Buch keine Werkzeuge zur Beseitigung von Verzerrungen enthält, möchten wir dich ermutigen, kritisch über mögliche Verzerrungen in deinem System nachzudenken und Lösungen zu finden , bevor du in die Produktion gehst. Wenn du nicht weißt, wo du anfangen sollst, schau dir den hervorragenden Einführungsvortrag von Katharine Jarmul an. IBM hat in seinem Open-Source-Toolkit AI Fairness 360 eine Sammlung von Werkzeugen und Beispielen zusammengestellt, mit denen du deine Untersuchungen beginnen kannst. Ein entscheidender Schritt zur Verringerung von Verzerrungen in deinen Modellen ist ein vielfältiges Team, das potenzielle Probleme frühzeitig erkennt. Wie Jeff Dean sagte: "KI ist vielversprechend und hat das Potenzial, so viele verschiedene Bereiche der modernen Gesellschaft zu revolutionieren. Um ihr wahres Potenzial auszuschöpfen, muss unser Bereich allen Menschen offenstehen. So wie es heute aussieht, ist es das definitiv nicht. Unser Bereich hat ein Problem mit der Inklusion."

Tipp

Es ist wichtig zu wissen, dass die Beseitigung von Verzerrungen oder die Validierung der Genauigkeit deiner Ergebnisse kein Selbstläufer ist; die Leistung des Modells kann sich verschlechtern und Verzerrungen können im Laufe der Zeit auftreten - auch wenn du persönlich nichts änderst.¹

In diesem Buch verwendete Konventionen

In diesem Buch werden die folgenden typografischen Konventionen verwendet:

Kursiv: Weist auf neue Begriffe, URLs, E-Mail-Adressen, Dateinamen und Dateierweiterungen hin.
Constant width: Wird für Programmlistings sowie innerhalb von Absätzen verwendet, um auf Programmelemente wie Variablen- oder Funktionsnamen, Datenbanken, Datentypen, Umgebungsvariablen, Anweisungen und Schlüsselwörter hinzuweisen.
Constant width bold: Zeigt Befehle oder anderen Text an, der vom Benutzer wortwörtlich eingetippt werden sollte.
Constant width italic: Zeigt Text an, der durch vom Benutzer eingegebene Werte oder durch kontextabhängige Werte ersetzt werden soll.

Tipp

Dieses Element steht für einen Tipp oder eine Anregung.

Hinweis

Dieses Element steht für einen allgemeinen Hinweis.

Warnung

Dieses Element weist auf eine Warnung oder einen Warnhinweis hin.

Wir verwenden Warnungen, um auf Situationen hinzuweisen, in denen die resultierende Pipeline wahrscheinlich nicht portabel ist, und nennen dir portable Alternativen, die du verwenden kannst.

Code Beispiele

Zusätzliches Material (Codebeispiele usw.) steht unter https://oreil.ly/Kubeflow_for_ML zum Download bereit . Diese Code-Beispiele sind unter einer Apache-2-Lizenz oder wie im nächsten Abschnitt beschrieben verfügbar.

Es gibt weitere Beispiele unter ihren eigenen Lizenzen, die du vielleicht nützlich findest. Das Kubeflow-Projekt hat ein Beispiel-Repository, das zum Zeitpunkt der Erstellung dieses Artikels unter einer Apache 2-Lizenz verfügbar ist. Canonical hat auch eine Reihe von Ressourcen, die für MicroK8s-Nutzer besonders interessant sein könnten.

Code-Beispiele verwenden

Wenn du eine technische Frage oder ein Problem mit den Codebeispielen hast, sende bitte eine E-Mail an bookquestions@oreilly.com.

Dieses Buch soll dir helfen, deine Arbeit zu erledigen. Wenn in diesem Buch Beispielcode angeboten wird, darfst du ihn unter in deinen Programmen und in deiner Dokumentation verwenden. Du musst uns nicht um Erlaubnis fragen, es sei denn, du reproduzierst einen großen Teil des Codes. Wenn du zum Beispiel ein Programm schreibst, das mehrere Teile des Codes aus diesem Buch verwendet, brauchst du keine Erlaubnis. Der Verkauf oder die Verbreitung von Beispielen aus O'Reilly-Büchern erfordert jedoch eine Genehmigung. Die Beantwortung einer Frage mit einem Zitat aus diesem Buch und einem Beispielcode erfordert keine Genehmigung. Wenn du einen großen Teil des Beispielcodes aus diesem Buch in die Dokumentation deines Produkts aufnimmst, ist eineGenehmigung erforderlich.

Weitere Details zur Lizenz findest du in den Repos.

Wir freuen uns über eine Namensnennung, verlangen sie aber in der Regel nicht. Eine Quellenangabe umfasst normalerweise den Titel, den Autor, den Verlag und die ISBN. Zum Beispiel:"Kubeflow for Machine Learning " von Holden Karau, Trevor Grant, Boris Lublinsky, Richard Liu, und Ilan Filonenko (O'Reilly). Copyright 2021 Holden Karau, Trevor Grant, Boris Lublinsky, Richard Liu, and Ilan Filonenko, 978-1-492-05012-4."

Wenn du der Meinung bist, dass die Verwendung von Code-Beispielen nicht unter die Fair-Use-Regelung oder die oben genannte Erlaubnis fällt, kannst du uns gerne unter permissions@oreilly.com kontaktieren .

O'Reilly Online Learning

Hinweis

Seit mehr als 40 Jahren bietet O'Reilly Media Schulungen, Wissen und Einblicke in Technologie und Wirtschaft, um Unternehmen zum Erfolg zu verhelfen.

Unser einzigartiges Netzwerk von Experten und Innovatoren teilt sein Wissen und seine Erfahrung durch Bücher, Artikel und unsere Online-Lernplattform. Die Online-Lernplattform von O'Reilly bietet dir On-Demand-Zugang zu Live-Trainingskursen, ausführlichen Lernpfaden, interaktiven Programmierumgebungen und einer umfangreichen Text- und Videosammlung von O'Reilly und über 200 anderen Verlagen. Weitere Informationen erhältst du unter http://oreilly.com.

Wie man die Autoren kontaktiert

Wenn du uns Feedback geben möchtest, schreibe uns eine E-Mail an intro-to-ml-kubeflow@googlegroups.com. Für gelegentliches Geplapper über Kubeflow, folge uns online:

Trevor

Holden

Boris

Richard

GitHub

Ilan

Wie du uns kontaktierst

Bitte richte Kommentare und Fragen zu diesem Buch an den Verlag:

O'Reilly Media, Inc.
1005 Gravenstein Highway Nord
Sebastopol, CA 95472
800-998-9938 (in den Vereinigten Staaten oder Kanada)
707-829-0515 (international oder lokal)
707-829-0104 (Fax)

Du kannst die Webseite zu diesem Buch, auf der wir Errata, Beispiele und zusätzliche Informationen auflisten, unter https://oreil.ly/Kubeflow_for_Machine_Learning aufrufen .

Schreib eine E-Mail an bookquestions@oreilly.com, um Kommentare oder technische Fragen zu diesem Buch zu stellen.

Neuigkeiten und Informationen über unsere Bücher und Kurse findest du unter http://oreilly.com.

Finde uns auf Facebook: http://facebook.com/oreilly

Folge uns auf Twitter: http://twitter.com/oreillymedia

Schau uns auf YouTube: http://www.youtube.com/oreillymedia

Danksagungen

Die Autoren möchten sich bei allen bei O'Reilly Media bedanken, insbesondere bei unseren Redakteurinnen Amelia Blevins und Deborah Baker sowie bei der Kubeflow-Community, die dieses Buch möglich gemacht hat. Clive Cox und Alejandro Saucedo von Seldon haben großartige Beiträge zu Kapitel 8 geleistet, ohne die diesem Buch wichtige Teile fehlen würden. Wir möchten uns bei Google Cloud Platform für die Ressourcen bedanken, die es uns ermöglicht haben, sicherzustellen, dass die Beispiele auf GCP funktionieren. Am wichtigsten ist vielleicht, dass wir uns bei unseren Rezensenten bedanken, ohne die dieses Buch in seiner jetzigen Form nicht existieren würde. Dazu gehören Taka Shinagawa, Pete MacKinnon, Kevin Haas, Chris Albon, Hannes Hapke und viele andere. Allen frühen Lesern und Rezensenten von Büchern danken wir für ihre Beiträge.

Holden: Sie dankt ihrer Freundin Kris Nóva für ihre Hilfe beim Debuggen ihres ersten Kubeflow-PRs und der gesamten Kubeflow-Community für ihre Gastfreundschaft. Sie dankt auch ihrer Frau Carolyn DeSimone, ihrem Welpen Timbit DeSimone-Karau (in Abbildung P-1) und ihren Stofftieren für die Unterstützung, die sie beim Schreiben brauchte. Sie möchte den Ärzten im SF General und im UCSF dafür danken, dass sie ihre Hände wieder in Ordnung gebracht haben, damit sie dieses Buch zu Ende schreiben konnte (obwohl sie sich wünscht, dass die Hände nicht mehr weh tun), und allen, die sie im Krankenhaus und im Pflegeheim besucht haben. Ein besonderes Dankeschön geht an Ann Spencer, die erste Lektorin, die ihr gezeigt hat, wie man Spaß am Schreiben haben kann. Schließlich möchte sie ihrer Freundin Els van Vessem für ihre Unterstützung bei der Genesung nach ihrem Unfall danken, insbesondere dafür, dass sie ihr Geschichten vorgelesen und sie an ihre Liebe zum Schreiben erinnert hat.

Ilan: Er möchte sich bei all seinen Kolleginnen und Kollegen bei Bloomberg bedanken, die sich die Zeit genommen haben, ihn zu prüfen, zu betreuen und zu ermutigen, zu schreiben und zu Open Source beizutragen: Kimberly Stoddard, Dan Sun, Keith Laban, Steven Bower und Sudarshan Kadambi. Er möchte auch seiner Familie - Galia, Yuriy und Stan - für ihre bedingungslose Liebe und Unterstützung danken.
Richard: Ich möchte dem Google Kubeflow-Team danken, darunter auch, aber nicht nur: Jeremy Lewi, Abhishek Gupta, Thea Lamkin, Zhenghui Wang, Kunming Qu, Gabriel Wen, Michelle Casbon und Sarah Maddox - ohne deren Unterstützung dies alles nicht möglich gewesen wäre. Er möchte sich auch bei seiner Katze Tina (siehe Abbildung P-2) für ihre Unterstützung und ihr Verständnis während der COVID-19 bedanken.

Boris: Er dankt seinen Kollegen bei Lightbend, insbesondere Karl Wehden, für ihre Unterstützung beim Schreiben des Buches, ihre Vorschläge und Korrekturlesungen der frühen Versionen des Textes und seiner Frau Marina dafür, dass sie seine langen Arbeitszeiten erträgt und ihn während dieser Zeit füttert.
Trevor: Trevor möchte sich bei seinen Bürokollegen Apache und Meowska (siehe Abbildung P-3) dafür bedanken, dass sie ihn daran erinnert haben, wie wichtig Nickerchen sind, und bei allen, die ihm letztes Jahr bei seinem Vortrag über Kubeflow zugehört haben (vor allem bei denen, die sich die schlechten Versionen angehört haben, und vor allem bei denen, die sich die schlechten Versionen angehört haben, aber jetzt trotzdem dieses Buch lesen - ihr seid die Besten). Außerdem möchte er sich bei seiner Mutter, seiner Schwester und seinem Bruder dafür bedanken, dass sie seine verschiedenen Späße über die Jahre hinweg toleriert haben.

Beschwerden

Die Autoren möchten sich auch für die Schwierigkeiten mit API-Änderungen bedanken, die das Schreiben dieses Buches so frustrierend gemacht haben. Wenn du jemals mit API-Änderungen zu kämpfen hast, solltest du wissen, dass du nicht allein bist; sie sind für fast jeden lästig.

Holden möchte sich auch für die Zeiten bedanken, in denen Timbit DeSimone-Karau ein kleiner Scheißer war und den Hof umgegraben hat, während sie arbeitete. Wir haben eine besondere Beschwerde an die Person zu richten, die Holden mit ihrem Auto angefahren hat und so die Veröffentlichung dieses Buches verzögert hat.

Trevor muss sich bei seiner Freundin beschweren, die ihn während des gesamten Projekts und während er "daran arbeitet" immer wieder bedrängt, ihr einen Heiratsantrag zu machen - falls er sie bis zum Erscheinen des Buches noch nicht um ihre Hand gebeten hat: Katie, willst du mich heiraten?

¹ Erinnerst du dich an den Twitter-Bot, der durch verstärkendes Lernen in weniger als einem Wochenende zu einem Neonazi wurde?

Get Kubeflow für maschinelles Lernen now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.

Start your free trial

Kubeflow für maschinelles Lernen by Trevor Grant, Holden Karau, Boris Lublinsky, Richard Liu, Ilan Filonenko

Vorwort

Unsere Vermutung über dich

Deine Verantwortung als Praktiker/in

Tipp

In diesem Buch verwendete Konventionen

Tipp

Hinweis

Warnung

Code Beispiele

Code-Beispiele verwenden

O'Reilly Online Learning

Hinweis

Wie man die Autoren kontaktiert

Wie du uns kontaktierst

Danksagungen

Abbildung P-1. Timbit der Hund

Abbildung P-2. Tina die Katze

Abbildung P-3. Apache und Meowska

Beschwerden

Don’t leave empty-handed

It’s yours, free.

Check it out now on O’Reilly