Kapitel 9. Inferenz-Optimierung
Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com
In den letzten Kapiteln haben wir verschiedene Techniken kennengelernt, um LLMs für die Lösung bestimmter Aufgaben anzupassen und zu nutzen. In diesem Kapitel werden wir lernen, wie man mit LLMs in der Praxis effizient Inferenzen durchführen kann. Die große Größe von LLMs macht den Einsatz und die Schlussfolgerungen zu einer besonderen Herausforderung, da sie einen erheblichen Druck auf den Rechen-, Speicher- und Energiebedarf ausüben. Dies erweist sich vor allem bei Kantengeräten wie Mobiltelefonen als Herausforderung.
Im weiteren Verlauf des Kapitels konzentrieren wir uns auf den Bereich der Inferenzoptimierung und erörtern die Faktoren, die die LLM-Inferenzzeit beeinflussen. Anschließend werden wir eine Reihe von Optimierungstechniken vorstellen, darunter Caching, Wissensdestillation, frühzeitiges Verlassen, Quantisierung, parallele und spekulative Dekodierung und mehr.
LLM Inferenz-Herausforderungen
Was sind die Engpässe bei LLM-Schlussfolgerungen? Wie wir alle wissen, erfordern ihre gigantischen Größen enorme Rechen- und Speicherressourcen. Darüber hinaus verschärfen zwei weitere Faktoren die Situation:
-
Wie in Kapitel 4 beschrieben, basieren die heutigen LLMs größtenteils auf reinen Decodermodellen, die autoregressiv arbeiten. Das bedeutet, dass jedes Token nacheinander generiert wird, was zu einer sequentiellen ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access