Chapitre 7. Ajustement fin grâce à l'apprentissage par renforcement à partir des commentaires humains
Cet ouvrage a été traduit à l'aide de l'IA. Tes réactions et tes commentaires sont les bienvenus : translation-feedback@oreilly.com
Comme tu l'as appris aux chapitres 5 et 6, le réglage fin à l'aide d'instructions peut améliorer les performances de ton modèle et l'aider à mieux comprendre les prompts de type humain et à générer des réponses plus humaines. Cependant, cela n'empêche pas le modèle de générer des compléments indésirables, faux et parfois même nuisibles.
Les résultats indésirables ne sont pas vraiment une surprise, étant donné que ces modèles sont entraînés sur de vastes quantités de données textuelles provenant d'Internet, qui contiennent malheureusement beaucoup de langage grossier et de toxicité. Et bien que les chercheurs et les praticiens continuent de nettoyer et d'affiner les ensembles de données de pré-entraînement pour supprimer les données indésirables, il y a toujours une chance que le modèle génère un contenu qui ne s'aligne pas positivement sur les valeurs et les préférences humaines.
L'apprentissage par renforcement à partir de commentaires humains (RLHF) est un mécanisme de réglage fin qui utilise des annotations humaines - également appelées commentaires humains - pour aider le modèle à s'adapter aux valeurs et aux préférences humaines. Le RLHF est le plus souvent appliqué après d'autres formes de réglage fin, y compris le réglage fin des instructions. ...