Kapitel 9. Maschinelles Lernen mit TensorFlow in Vertex AI
Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com
In Kapitel 7 haben wir ein maschinelles Lernmodell in Spark erstellt, stießen aber auf Probleme, als wir versuchten, es zu skalieren und in Betrieb zu nehmen. In Kapitel 8 konnten wir die Herausforderung der Skalierbarkeit durch den Einsatz von BigQuery ML lösen, aber die Herausforderungen der Operationalisierung bleiben bestehen. Außerdem konnten wir trotz der Skalierbarkeit von BigQuery ML kein möglichst aussagekräftiges ML-Modell erstellen. Kurz gesagt, haben wir vier Herausforderungen identifiziert:
-
Die One-Hot-Codierung von kategorialen Spalten führte zu einer Explosion der Größe des Datensatzes, da die Größe der Spalten zunahm. BigQuery ML konnte dies bewältigen, Spark jedoch nicht.
-
Einbettungen hätten in Spark eine besondere Buchführung erfordert, und das war in BigQuery ML keine Option.
-
Um das Modell in die Produktion zu bringen, muss die Bibliothek für maschinelles Lernen auf andere Umgebungen übertragbar sein als den Hadoop-Cluster oder das BigQuery Data Warehouse, auf dem das Modell trainiert wurde.
-
Um bei der Verwendung eines Zeitfenster-Aggregats eine Verzerrung des Trainings zu verhindern, muss derselbe Datenaufbereitungscode sowohl für historische Daten (Batch) als auch für Echtzeitdaten (Streaming) verwendet werden können.
Das vierte Problem, das der zeitlich begrenzten ...
Get Data Science auf der Google Cloud Platform, 2. now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.