Capítulo 12. Ajuste fino eficiente de grandes modelos
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
Como se ha comentado en en los capítulos anteriores de este libro, la capacidad de los modelos de aprendizaje profundo está aumentando rápidamente. La ley de escalado del aprendizaje profundo (analizada en el Capítulo 1) sigue alimentando la (sobre)parametrización, hasta el punto de que se han construido modelos a escala del cerebro humano con cientos de billones de parámetros.1 La tendencia general de la industria se está apartando del enfoque de eficacia probada de desarrollar modelos pequeños, creados para tareas específicas, para adaptar rápidamente modelos grandes, de propósito general, a la tarea en cuestión, mediante el uso de técnicas de ajuste fino y metaaprendizaje como las que se tratan en el Capítulo 11. Aunque este nuevo enfoque, sobre el que leerás más en el Capítulo 13, puede ser más económico en términos de coste de desarrollo, su eficacia aún está relativamente por probar.
Este cambio es bienvenido por su potencial para minimizar el tiempo de desarrollo y reducir el plazo de producción. Sin embargo, de acuerdo con el teorema de "no hay almuerzo gratis", conlleva sus propios retos, por ejemplo, cuando se trata de recursos de hardware limitados. Este capítulo se centra en el enfoque de adaptar un modelo mayor a una tarea específica y amplía el debate sobre el ajuste fino del capítulo anterior, ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access