book

Aufbau von Pipelines für maschinelles Lernen

by Hannes Hapke, Catherine Nelson

September 2024

Intermediate to advanced

366 pages

9h 58m

German

O'Reilly Media, Inc.

Book available

Read now

Unlock full access

Was sind Machine Learning Pipelines?Für wen ist dieses Buch?Warum TensorFlow und TensorFlow Extended?Überblick über die KapitelIn diesem Buch verwendete KonventionenCode-Beispiele verwendenO'Reilly Online LearningWie du uns kontaktierstDanksagungen
Warum Pipelines für maschinelles Lernen?Wann man über Pipelines für maschinelles Lernen nachdenken sollteÜberblick über die Schritte in einer Machine Learning PipelineDateningestion und DatenversionierungDatenvalidierungDatenvorverarbeitungModellschulung und -abstimmungModellanalyseModellversionierungModel DeploymentRückkopplungsschleifenDatenschutzPipeline-OrchestrierungWarum Pipeline Orchestration?Gerichtet azyklische GraphenUnser BeispielprojektProjektstrukturUnser Machine Learning ModellZiel des BeispielprojektsZusammenfassung
Was ist TFX?TFX installierenÜberblick über die TFX-KomponentenWas sind ML-Metadaten?Interaktive PipelinesAlternativen zu TFXEinführung in Apache BeamEinrichtungBasisdaten-PipelineAusführen deiner Basis-PipelineZusammenfassung
Konzepte für die DateneingabeLokale Datendateien einspeisenIngesting von Remote Data FilesDaten direkt aus Datenbanken einlesenDatenaufbereitungDatensätze aufteilenÜbergreifende DatensätzeVersionierung von DatensätzenStrategien für die NahrungsaufnahmeStrukturierte DatenTextdaten für natürlichsprachliche ProblemeBilddaten für Computer Vision ProblemeZusammenfassung
Warum Datenvalidierung?TFDVInstallationErzeugen von Statistiken aus deinen DatenSchema aus deinen Daten generierenErkennen von Problemen in deinen DatenDatensätze vergleichenDas Schema aktualisierenDatenverzerrung und -driftVerzerrte DatensätzeSchneiden von Daten in TFDVVerarbeitung großer Datensätze mit GCPIntegration von TFDV in deine Pipeline für maschinelles LernenZusammenfassung
Warum Datenvorverarbeitung?Vorverarbeitung der Daten im Kontext des gesamten DatensatzesSkalierung der VorverarbeitungsschritteEine Schieflage in der Ausbildung vermeidenBereitstellung von Vorverarbeitungsschritten und dem ML-Modell als ein ArtefaktÜberprüfe deine Vorverarbeitungsergebnisse in deiner PipelineDatenvorverarbeitung mit TFTInstallationVorverarbeitungsstrategienBewährte MethodenTFT-FunktionenEigenständige Ausführung von TFTIntegriere TFT in deine Pipeline für maschinelles LernenZusammenfassung
Festlegung des Modells für unser BeispielprojektDie TFX-Trainerkomponenterun_fn() FunktionAusführen der Trainer-KomponenteWeitere Überlegungen zu TrainerkomponentenVerwendung von TensorBoard in einer interaktiven PipelineVertriebsstrategienModel TuningStrategien zur Abstimmung der HyperparameterHyperparameter-Abstimmung in TFX-PipelinesZusammenfassung
Wie du dein Modell analysierstMetriken zur KlassifizierungRegressionsmetrikenTensorFlow Modell AnalyseAnalysieren eines einzelnen Modells in TFMAAnalysieren mehrerer Modelle in der TFMAModellanalyse für FairnessSlicing-Modellvorhersagen in TFMAÜberprüfung von Entscheidungsschwellen mit Fairness-IndikatorenTiefer gehen mit dem WENN-ToolModell ErklärbarkeitErklärungen mit dem WIT generierenAndere Techniken der ErklärbarkeitAnalyse und Validierung in TFXResolverNodeBewerter-KomponenteValidierung in der Evaluator-KomponenteTFX Pusher-KomponenteZusammenfassung
Ein einfacher ModellserverDie Kehrseite der Modellimplementierung mit Python-basierten APIsFehlende Code-TrennungFehlende Versionskontrolle der ModelleIneffiziente ModellinferenzTensorFlow ServierenTensorFlow Architektur ÜberblickExportieren von Modellen für TensorFlow ServingModel SignaturesExportierte Modelle inspizierenTensorFlow Serving einrichtenDocker InstallationNative Ubuntu InstallationTensorFlow Serving aus der Quelle bauenEinen TensorFlow Server konfigurierenREST Versus gRPCVorhersagen vom Modellserver machenModellvorhersagen über REST abrufenTensorFlow Serving über gRPC verwendenModel A/B Testing mit TensorFlow ServingAnfordern von Modell-Metadaten vom ModellserverREST-Anfragen für Modell-MetadatengRPC-Anfragen für Modell-MetadatenStapelung von SchlussfolgerungsanfragenKonfigurieren von Batch-VorhersagenAndere TensorFlow Serving OptimierungenTensorFlow Serving-AlternativenBentoMLSeldonGraphPipeEinfaches TensorFlow ServingMLflowStrahlen servierenEinsatz mit Cloud-ProvidernAnwendungsfälleBeispiel für den Einsatz mit GCPModel Deployment mit TFX PipelinesZusammenfassung

Entkopplung der BereitstellungszyklenWorkflow-ÜbersichtOptimierung der Fernladung von ModellenModelloptimierungen für EinsätzeQuantisierungBeschneidenDestillationVerwendung von TensorRT mit TensorFlow ServingTFLiteSchritte zur Optimierung deines Modells mit TFLiteTFLite Modelle mit TensorFlow Serving bedienenÜberwachung deiner TensorFlow Serving InstanzenPrometheus-EinrichtungTensorFlow Serving KonfigurationEinfache Skalierung mit TensorFlow Serving und KubernetesZusammenfassung
Erweiterte Pipeline-KonzepteMehrere Modelle gleichzeitig trainierenTFLite-Modelle exportierenWarmstart Modell TrainingDer Mensch in der SchleifeEinrichtung der Slack-KomponenteWie du die Slack-Komponente verwendestKundenspezifische TFX-KomponentenAnwendungsfälle für benutzerdefinierte KomponentenEine eigene Komponente von Grund auf neu schreibenVorhandene Komponenten wiederverwendenZusammenfassung
Welches Orchestrierungswerkzeug soll ich wählen?Apache BeamApache AirflowKubeflow-PipelinesKubeflow-Pipelines auf der KI-PlattformUmwandlung deiner interaktiven TFX-Pipeline in eine ProduktionspipelineEinfache interaktive Rohrleitungsumwandlung für Strahl und LuftstromEinführung in Apache BeamOrchestrierung von TFX-Pipelines mit Apache BeamEinführung in Apache AirflowInstallation und ErsteinrichtungBeispiel für einen einfachen LuftstromOrchestrierung von TFX-Pipelines mit Apache AirflowPipeline-EinrichtungPipeline-AusführungZusammenfassung
Einführung in Kubeflow PipelinesInstallation und ErsteinrichtungZugriff auf deine Kubeflow-Pipelines-InstallationOrchestrierung von TFX-Pipelines mit Kubeflow-PipelinesPipeline-EinrichtungAusführen der PipelineNützliche Funktionen von Kubeflow PipelinesPipelines auf Basis der Google Cloud AI PlatformPipeline-EinrichtungTFX-Pipeline-EinrichtungPipeline-AusführungZusammenfassung
Explizites und implizites FeedbackDas DatenschwungradRückkopplungsschleifen in der realen WeltEntwurfsmuster für das Sammeln von FeedbackDie Nutzer ergreifen eine Handlung als Folge der VorhersageNutzer bewerten die Qualität der VorhersageNutzer korrigieren die VorhersageCrowdsourcing der AnnotationenExperten-KommentareAutomatisch Rückmeldung gebenWie man Feedbackschleifen verfolgtExplizites Feedback nachverfolgenImplizites Feedback nachverfolgenZusammenfassung
Fragen des DatenschutzesWarum ist uns der Datenschutz wichtig?Der einfachste Weg zu mehr PrivatsphäreWelche Daten müssen geheim gehalten werden?Differenzierter DatenschutzLokaler und globaler differenzieller DatenschutzEpsilon, Delta und der Haushalt für den DatenschutzDifferential Privacy für maschinelles LernenEinführung in TensorFlow DatenschutzTraining mit einem differentiell privaten OptimiererBerechnen von EpsilonFöderiertes LernenFöderiertes Lernen in TensorFlowVerschlüsseltes maschinelles LernenVerschlüsselte ModellschulungEin trainiertes Modell umwandeln, um verschlüsselte Vorhersagen zu treffenAndere Methoden zum Schutz der DatenZusammenfassung
Modellversuche verfolgenÜberlegungen zum ModellfreigabemanagementKünftige Pipeline-FähigkeitenTFX mit anderen Machine Learning FrameworksTesten von Machine Learning ModellenCI/CD-Systeme für maschinelles LernenGemeinschaft der Ingenieure für maschinelles LernenZusammenfassung
Was ist ein Container?Einführung in DockerEinführung in Docker ImagesDein erstes Docker Image erstellenEintauchen in das Docker CLIEinführung in KubernetesEinige Kubernetes-DefinitionenErste Schritte mit Minikube und kubectlInteraktion mit dem Kubernetes CLIDefinieren einer Kubernetes-RessourceBereitstellung von Anwendungen in Kubernetes
Bevor du anfängstKubernetes auf Google CloudAuswählen eines Google Cloud-ProjektsDein Google Cloud Projekt einrichtenEinen Kubernetes Cluster erstellenZugriff auf deinen Kubernetes Cluster mit kubectlVerwendung deines Kubernetes-Clusters mit kubectlPersistent Volume Setups für Kubeflow Pipelines
Benutzerdefinierte TFX-BilderDatenaustausch über Persistent VolumesTFX-BefehlszeilenschnittstelleTFX und seine AbhängigkeitenTFX-TemplatesVeröffentlichen deiner Pipeline mit TFX CLI

Content preview from Aufbau von Pipelines für maschinelles Lernen

Kapitel 1. Einführung

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

In diesem ersten Kapitel stellen wir Pipelines für maschinelles Lernen vor und erläutern alle Schritte, die zu ihrer Erstellung gehören. Wir erklären, was passieren muss, damit dein maschinelles Lernmodell von einem Experiment zu einem robusten Produktionssystem wird. Außerdem stellen wir unser Beispielprojekt vor, das wir im weiteren Verlauf des Buches verwenden werden, um die beschriebenen Prinzipien zu demonstrieren.

Warum Pipelines für maschinelles Lernen?

Der Hauptvorteil von Pipelines für maschinelles Lernen liegt in der Automatisierung der Schritte des Modelllebenszyklus. Wenn neue Trainingsdaten zur Verfügung stehen, sollte ein Arbeitsablauf ausgelöst werden, der Datenvalidierung, Vorverarbeitung, Modelltraining, Analyse und Bereitstellung umfasst. Wir haben beobachtet, dass zu viele Data-Science-Teams diese Schritte manuell durchführen, was nicht nur kostspielig ist, sondern auch eine Fehlerquelle darstellt. Gehen wir im Detail auf die Vorteile von Pipelines für maschinelles Lernen ein:

Die Fähigkeit, sich auf neue Modelle zu konzentrieren, anstatt bestehende Modelle zu pflegen: Automatisierte Pipelines für maschinelles Lernen entlasten Datenwissenschaftler von der Pflege bestehender Modelle. Wir haben beobachtet, dass zu viele Datenwissenschaftler ihre Tage damit verbringen, bereits entwickelte Modelle auf dem neuesten ...