Capítulo 7. Ajuste fino con aprendizaje por refuerzo a partir de la retroalimentación humana

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Como aprendiste en los Capítulos 5 y 6, el ajuste fino con instrucciones puede mejorar el rendimiento de tu modelo y ayudarle a comprender mejor las indicaciones de tipo humano y a generar respuestas más parecidas a las humanas. Sin embargo, no evita que el modelo genere respuestas no deseadas, falsas y, a veces, incluso perjudiciales.

En realidad, los resultados indeseables no son ninguna sorpresa, dado que estos modelos se entrenan con grandes cantidades de datos de texto de Internet, que por desgracia contienen muchas palabras malsonantes y tóxicas. Y aunque los investigadores y los profesionales siguen depurando y refinando los conjuntos de datos de preentrenamiento para eliminar los datos no deseados, sigue existiendo la posibilidad de que el modelo genere contenidos que no se ajusten positivamente a los valores y preferencias humanos.

El aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF) es un mecanismo de ajuste fino que utiliza la anotación humana -también llamada retroalimentación humana- para ayudar al modelo a adaptarse a los valores y preferencias humanos. El RLHF se suele aplicar después de otras formas de ajuste fino, como el ajuste fino de instrucciones.

Aunque RLHF se utiliza normalmente para ayudar a un modelo a generar resultados más ...

Get IA Generativa en AWS now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.