Kapitel 7. Feinabstimmung mit Reinforcement Learning aus menschlichem Feedback

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Wie du in den Kapiteln 5 und 6 gelernt hast, kann die Feinabstimmung mit Anweisungen die Leistung deines Modells verbessern und dem Modell helfen, menschenähnliche Eingabeaufforderungen besser zu verstehen und menschenähnlichere Antworten zu erzeugen. Es verhindert jedoch nicht, dass das Modell unerwünschte, falsche und manchmal sogar schädliche Vervollständigungen erzeugt.

Unerwünschte Ergebnisse sind keine Überraschung, wenn man bedenkt, dass diese Modelle auf riesigen Mengen von Textdaten aus dem Internet trainiert werden, die leider viele schlechte und giftige Wörter enthalten. Auch wenn Forscher/innen und Praktiker/innen die Pretraining-Datensätze immer weiter säubern und verfeinern, um unerwünschte Daten zu entfernen, besteht immer noch die Möglichkeit, dass das Modell Inhalte erzeugt, die nicht mit den menschlichen Werten und Vorlieben übereinstimmen.

Verstärkungslernen durch menschliches Feedback (Reinforcement Learning from Human Feedback, RLHF) ist ein Feinabstimmungsmechanismus, der menschliche Anmerkungen - auch menschliches Feedback genannt - nutzt, um das Modell an menschliche Werte und Vorlieben anzupassen. RLHF wird am häufigsten nach anderen Formen der Feinabstimmung eingesetzt, z. B. nach der Feinabstimmung von Anweisungen.

RLHF wird in der Regel verwendet, ...

Get Generative KI auf AWS now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.