book

Aufbau von Machine-Learning-Systemen mit einem Feature Store

Name: Aufbau von Machine-Learning-Systemen mit einem Feature Store
Author: Jim Dowling
ISBN: 0642572279479

by Jim Dowling

November 2025

Intermediate to advanced

508 pages

16h 14m

German

O'Reilly Media, Inc.

Read now

Unlock full access

Vorwort
Warum habe ich dieses Buch geschrieben?Zielgruppe dieses BuchesWas dieses Buch nicht istÜberblick über das BuchIn diesem Buch verwendete KonventionenVerwendung von Code-BeispielenO’Reilly Online LearningSo kannst du uns erreichenDanksagungen
I. Die FTI-Pipeline-Architektur für maschinelle Lernsysteme
1. Aufbau von Systemen für maschinelles Lernen
Die Anatomie eines maschinellen LernsystemsArten des maschinellen LernensDatenquellenVeränderbare DatenEine kurze Geschichte der maschinellen LernsystemeMLOps und LLMOpsEine einheitliche Architektur für KI-Systeme: Feature-, Trainings- und Inferenz-PipelinesKlassen von KI-Systemen mit einem Feature StoreIn diesem Buch verwendete ML-Frameworks und ML-InfrastrukturZusammenfassung
2. Pipelines für maschinelles Lernen
Aufbau von ML-Systemen mit ML-PipelinesMinimal funktionsfähiger VorhersagedienstModularen Code für ML-Pipelines schreibenEine Taxonomie für Datentransformationen in ML-PipelinesFeature-Typen und modellabhängige TransformationenWiederverwendbare Features mit modellunabhängigen TransformationenEchtzeit-Features mit On-Demand-TransformationenDie ML-Transformationstaxonomie und ML-PipelinesFeature-PipelinesTrainings-PipelinesInferenz-PipelinesTitanic Survival als ML-System, das mit ML-Pipelines erstellt wurdeZusammenfassung
3. Dein freundlicher Nachbarschaftsdienst für Luftqualitätsvorhersagen
Überblick über das KI-SystemLuftqualitätsdatenExplorative DatenanalyseLuftqualitätsdatenWetterdatenErstellen und Nachfüllen von MerkmalsgruppenFeature-PipelineTrainings-PipelineBatch-Inferenz-PipelineAusführen der PipelinesZeitplannungsprogramm der Pipelines als GitHub-AktionErstellen des Dashboards als GitHub-SeiteFunktionsaufruf mit LLMsZusammenfassung und Übungen
II. Feature Stores
4. Feature Stores
Ein Feature Store für die BetrugsvorhersageKurze Geschichte der Feature StoresDer Aufbau eines Feature StoresWann brauchst du einen Feature Store?Für Kontext und Verlauf in Echtzeit-ML-SystemenFür ZeitreihendatenFür eine bessere Zusammenarbeit mit der FTI-Pipeline-ArchitekturFür die Verwaltung von ML-SystemenFür die Suche und Wiederverwendung von KI-AssetsFür die Beseitigung von Offline-Online-Feature-VerzerrungenFür die Zentralisierung deiner Daten für KI auf einer einzigen PlattformFeature-GruppenFeature-Gruppen Speichern von nicht transformierten Feature-DatenFeature-Definitionen und Feature-GruppenSchreiben in Feature-GruppenDatenmodelle für Feature-GruppenDimensionsmodellierung mit einem Kreditkartendaten-MartML-System zur Echtzeit-Erkennung von KreditkartenbetrugFeature-Store-Datenmodell für die InferenzOnline-InferenzBatch-InferenzLesen von Feature-Daten mit einer Feature-AnsichtZeitpunktgenaue korrekte Trainingsdaten mit Feature-AnsichtenOnline-Inferenz mit einer Feature-AnsichtZusammenfassung und Übungen
5. Hopsworks Feature Store
Hopsworks-ProjekteSpeichern von Dateien in einem ProjektZugriffskontrolle innerhalb von ProjektenZugriffskontrolle auf Cluster-Ebene mithilfe von ProjektenFeature-GruppenVersionierungOnline-SpeicherOffline-Speicher (Lakehouse-Tabellen)Änderungsdatenerfassung für Feature-GruppenFeature-AnsichtenFeature-AuswahlModellabhängige TransformationenErstellen von MerkmalsansichtenTrainingsdaten als Datenrahmen oder DateienBatch-InferenzdatenOnline-InferenzdatenSchnellere Abfragen für MerkmalsdatenZusammenfassung und Übungen
III. Datentransformationen
6. Modellunabhängige Transformationen
Organisation des QuellcodesFeature-PipelinesDatentransformationen für DatenrahmenZeilenlänge-erhaltende TransformationenZeilen- und Spaltengröße reduzierende TransformationenTransformationen zur Vergrößerung der Zeilen-/SpaltengrößeJoin-TransformationenDAG von Feature-FunktionenLazy DatenrahmenVektorisierte Berechnung, Multicore und ArrowDatentypenMerkmale von KreditkartenbetrugZusammensetzung von TransformationenZusammenfassung und Übungen

7. Modellabhängige und On-Demand-Transformationen
Feature-TransformationenKodierung kategorialer VariablenVerteilungen numerischer VariablenUmwandlung numerischer VariablenSpeichern transformierter Merkmalsdaten in einer MerkmalsgruppeModellspezifische TransformationenMethoden zum Umgang mit AusreißernErgänzen fehlender WerteDatenbereinigung als modellbasierte TransformationenZiel-/Label-abhängige UmwandlungenAufwändige Merkmale werden bei Bedarf berechnetTokenizer und Chat-Vorlagen für LLMsTransformationen in Scikit-Learn-PipelinesTransformationen in Feature-AnsichtenOn-Demand-TransformationenPyTorch-TransformationenVerwendung von pytestUnit-TestsEine TestmethodikZusammenfassung und Übungen
8. Batch-Feature-Pipelines
Batch-Feature-PipelinesFeature-Pipeline-DatenquellenBatch-DatenquellenStreaming-DatenquellenUnstrukturierte Daten in Objektspeichern und DateisystemenAPI- und SaaS-QuellenSynthetische Kreditkartendaten mit LLMsEin logisches Modell für den Data Mart und das LLMLLM-Eingabeaufforderungen zur Generierung der synthetischen DatenBackfilling und inkrementelle UpdatesPolling und CDC für inkrementelle DatenBackfill und inkrementelle Verarbeitung in einem ProgrammAuftrag-OrchestratorenModalHopsworks-AufträgeWorkflow-OrchestratorenAirflowCloud-Provider-Workflow-OrchestratorenDatenverträgeDatenvalidierung mit hohen Erwartungen in HopsworksZusammenfassung und Übungen
9. Streaming- und Echtzeit-Features
Interaktive KI-Systeme brauchen EchtzeitfunktionenEvent-Streaming-PlattformenShift Left oder Shift Right?Shift-Right-ArchitekturenShift-Left-ArchitekturenStreaming-Feature-Pipelines schreibenDatenflussprogrammierungZustandslose und zustandsbehaftete DatenumwandlungenApache FlinkFelderaFensteraggregationRollierende AggregationenZeitfenster-AggregationenAuswahl des besten Fenstertyps für AggregationenRollierende Aggregationen mit inkrementellen AnsichtenStreaming-Features für KreditkartenbetrugASOF-Verbindungen und Zusammensetzung von TransformationenVerzögerte Merkmale und Merkmalspipelines in FelderaZusammenfassung und Übungen
IV. Trainingsmodelle
10. Trainings-Pipelines
Unstrukturierte Daten und Labels in Feature-GruppenSelbstüberwachtes und unüberwachtes LernenFür überwachtes Lernen braucht man eine BeschriftungRoot- und Label-Feature-GruppenFeature-AuswahlTrainingsdatenAufteilung der TrainingsdatenReproduzierbare TrainingsdatenModelltrainingModellarchitekturCheckpoints zur Wiederherstellung nach AusfällenHyperparameter-Optimierung mit Ray TuneVerteiltes Training mit RayParametereffiziente Feinabstimmung von LLMsKreditkartenbetrugsmodell mit XGBoostIdentifizierung von Engpässen beim verteilten TrainingModellbewertung und ModellvalidierungModellleistung für Klassifizierung und RegressionInterpretierbarkeit von ModellenModell-Bias-TestsModelldateiformate und die ModellregistrierungModellkartenZusammenfassung und Übungen
V. Inferenz und Agenten
11. Inferenz-Pipelines
Batch-Inferenz-PipelinesBatch-Vorhersagen für einen ZeitbereichBatch-Vorhersagen für EntitätenSkalierung der Batch-Inferenz mit PySparkDatenmodellierung für die Batch-InferenzBatch-Inferenz für neuronale NetzeBatch-Inferenz für LLMsOnline-Inferenz-PipelinesSicherstellen, dass Bibliotheken offline und online konsistent sindModellbereitstellungen mit FastAPILLM-BereitstellungenBereitstellungs-API für Modelle und Feature-AnsichtenModell-Serving-Frameworks mit KServeLeistung und FehlerbehandlungMixed-Mode-UDFsNative UDFs und Log-and-WaitUmgang mit Fehlern in Online-Inferenz-PipelinesSLOs für die ModellbereitstellungInferenz mit eingebetteten ModellenEingebettete KI-fähige AnwendungenStream-Verarbeitung KI-fähige AnwendungenBenutzeroberflächen für KI-fähige Anwendungen in PythonZusammenfassung und Übungen
12. Agenten und LLM-Workflows
Von LLMs zu AgentenEingabeaufforderung-ManagementPrompt-EngineeringKontextfensterAgenten und Workflows mit LlamaIndexRetrieval-augmentierte GenerierungAbruf mit einem DokumentenspeicherAbruf mit einem Feature-SpeicherAbruf mit einer GraphdatenbankTools und Funktionsaufruf-LLMsModellkontextprotokollAgent-zu-Agent-Protokoll (A2A)Von LLM-Workflows zu AgentenPlanungSicherheitsherausforderungenDomänenspezifische (Zwischen-)DarstellungenEin Entwicklungsprozess für AgentenAgentenbereitstellungen in HopsworksZusammenfassung und Übungen
VI. MLOps und LLMOps
13. Testen von KI-Systemen
Offline-TestsVon der Entwicklung zur ProduktionAutomatische Containerisierung und AufträgeUmgebungen und Aufträge in HopsworksModale AufträgeCI/CD-Tests für KI-SystemeFeature-Pipeline-TestsTraining-Pipeline-Tests für Modellleistung und VerzerrungTesten von ModellbereitstellungenA/B-Tests für Batch-InferenzBewertungen für AgentenGovernanceSchematisierte TagsAbstammungVersionsverwaltungPrüfprotokolleZusammenfassung und Übungen
14. Beobachtbarkeit und Überwachung von KI-Systemen
Protokollierung und Metriken für ML-ModelleProtokollierung für Batch- und Online-ModelleMetriken für Online-ModelleMetriken für Batch-ModelleÜberwachungsfunktionen und -modelleDatenaufnahme-DriftUnivariate MerkmalsabweichungMultivariate MerkmalsdriftÜberwachung von Vektor-EinbettungenModellüberwachung mit NannyMLWann sollte ein Modell neu trainiert oder neu gestaltet werden?Protokollierung und Metriken für AgentenVon Protokollen zu Traces mit AgentenFehleranalyseSicherheitsvorkehrungenOnline-A/B-TestsJailbreaking und Eingabeaufforderung-InjectionLLM-MetrikenZusammenfassung und Übungen
15. Der personalisierte Empfehlungsdienst von TikTok: Das wertvollste KI-System der Welt
Einführung in EmpfehlungssystemeEin TikTok-Empfehlungssystem mit Retrieval-and-Ranking-ArchitekturPersonalisierte Echtzeit-EmpfehlungenFeature-PipelinesTrainings-PipelinesOnline-Inferenz-PipelineAgentische Suche nach VideosDie zwölf häufigsten Irrtümer von MLOpsDie ethische Verantwortung von KI-EntwicklernZusammenfassung
Index
Über den Autor

Content preview from Aufbau von Machine-Learning-Systemen mit einem Feature Store

Kapitel 11. Inferenz -Pipelines

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Inferenz-Pipelines bestimmen, welche Art von KI-System du entwickelst. Batch-Inferenz-Pipelines sind Batch-KI-Systeme, Online-Inferenz-Pipelines sind Echtzeit-KI-Systeme und agentenbasierte Workflows sind LLM-gestützte KI-Systeme. Eine Inferenz-Pipeline ist ein Programm, das Inferenzdaten sammelt, die Eingabedaten umwandelt, um einen oder mehrere Merkmalsvektoren zu erzeugen, und dann den/die Merkmalsvektor(en) an ein oder mehrere Modelle weiterleitet, die Vorhersagen ausgeben. Inferenzpipelines können alles Mögliche sein, von einem Batch-/Streaming-/Embedded-Programm über einen Netzwerkdienst mit SLOs bis hin zu einem Agenten, der LLMs und Tools nutzt, um ein Ziel zu erreichen. Inferenzpipelines protokollieren ihre Eingaben und Ausgaben, sodass du ihre Leistung überwachen und debuggen kannst.

Dieses Kapitel behandelt die Herausforderungen beim Schreiben von Batch-, Online-, eingebetteten und Streaming-Inferenzprogrammen. Agenten und LLM-Workflows werden in Kapitel 12 behandelt. Du lernst, wie du Batch-Inferenz-Pipelines entwirfst und mit PySpark skalierst. Du lernst, wie du Online-Inferenz-Pipelines schreibst, die Kontext/Historie aus dem Feature Store abrufen, und wie du Modelle in einer Model-Serving-Infrastruktur hinter einer Deployment-API bereitstellst. Du lernst, wie du ein Modell in eine Stream-Verarbeitungsanwendung ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Aufbau von Anwendungen mit maschinellem Lernen

Publisher Resources

ISBN: 0642572279479

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

Aufbau von Machine-Learning-Systemen mit einem Feature Store

by Jim Dowling

Kapitel 11. Inferenz -Pipelines

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.