Kapitel 8. Optimierungen bei der Modellbereitstellung

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Nachdem du dein Modell an deine Zielaufgabe angepasst hast, willst du es schließlich einsetzen, damit du mit ihm interagieren und es möglicherweise in eine Anwendung integrieren kannst, die es nutzen soll.

Bevor du dein generatives Modell einsetzt, musst du dir darüber im Klaren sein, welche Ressourcen dein Modell benötigt und wie du mit ihm interagieren möchtest. Wenn du dir überlegst, welche Ressourcen dein Modell benötigt, musst du unter anderem herausfinden, wie schnell dein Modell Abschlüsse generieren soll, welches Budget für Rechenressourcen dir zur Verfügung steht und welche Kompromisse du in Bezug auf die Leistung des Modells einzugehen bereit bist, um eine schnellere Inferenzgeschwindigkeit zu erreichen und möglicherweise die Speicherkosten zu senken.

In diesem Kapitel lernst du verschiedene Techniken zur Optimierung deines Modells nach dem Training kennen, z. B. Pruning, Quantisierung und Destillation. Weitere Überlegungen und mögliche Anpassungen deiner Einsatzkonfigurationen sind auch nach dem Einsatz erforderlich, z. B. die Auswahl der optimalen Rechenressourcen, um ein Gleichgewicht zwischen Kosten und Leistung herzustellen.

Modelloptimierungen für die Inferenz

Die Größe von generativen KI-Modellen stellt oft eine Herausforderung für den Einsatz dar, da sie hohe Anforderungen ...

Get Generative KI auf AWS now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.