Kapitel 11. Inferenz -Pipelines
Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com
Inferenz-Pipelines bestimmen, welche Art von KI-System du entwickelst. Batch-Inferenz-Pipelines sind Batch-KI-Systeme, Online-Inferenz-Pipelines sind Echtzeit-KI-Systeme und agentenbasierte Workflows sind LLM-gestützte KI-Systeme. Eine Inferenz-Pipeline ist ein Programm, das Inferenzdaten sammelt, die Eingabedaten umwandelt, um einen oder mehrere Merkmalsvektoren zu erzeugen, und dann den/die Merkmalsvektor(en) an ein oder mehrere Modelle weiterleitet, die Vorhersagen ausgeben. Inferenzpipelines können alles Mögliche sein, von einem Batch-/Streaming-/Embedded-Programm über einen Netzwerkdienst mit SLOs bis hin zu einem Agenten, der LLMs und Tools nutzt, um ein Ziel zu erreichen. Inferenzpipelines protokollieren ihre Eingaben und Ausgaben, sodass du ihre Leistung überwachen und debuggen kannst.
Dieses Kapitel behandelt die Herausforderungen beim Schreiben von Batch-, Online-, eingebetteten und Streaming-Inferenzprogrammen. Agenten und LLM-Workflows werden in Kapitel 12 behandelt. Du lernst, wie du Batch-Inferenz-Pipelines entwirfst und mit PySpark skalierst. Du lernst, wie du Online-Inferenz-Pipelines schreibst, die Kontext/Historie aus dem Feature Store abrufen, und wie du Modelle in einer Model-Serving-Infrastruktur hinter einer Deployment-API bereitstellst. Du lernst, wie du ein Modell in eine Stream-Verarbeitungsanwendung ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access