Capítulo 8. Cómo hacer que los transformadores sean eficientes en la producción
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
En los capítulos anteriores, has visto cómo los transformadores pueden ajustarse con precisión para producir grandes resultados en una amplia gama de tareas. Sin embargo, en muchas situaciones la precisión (o cualquier otra métrica que estés optimizando) no es suficiente; tu modelo de última generación no es muy útil si es demasiado lento o grande para satisfacer los requisitos empresariales de tu aplicación. Una alternativa obvia es entrenar un modelo más rápido y compacto, pero la reducción de la capacidad del modelo suele ir acompañada de una degradación del rendimiento. Entonces, ¿qué puedes hacer cuando necesitas un modelo rápido y compacto, pero de gran precisión?
En este capítulo exploraremos cuatro técnicas complementarias que pueden utilizarse para acelerar las predicciones y reducir la huella de memoria de tus modelos de transformador: destilación de conocimientos, cuantización,poda y optimización de grafos con el formato Open Neural Network Exchange (ONNX) y ONNX Runtime (ORT). También veremos cómo pueden combinarse algunas de estas técnicas para producir importantes ganancias de rendimiento. Por ejemplo, éste fue el enfoque adoptado por el equipo de ingenieros de Roblox en su artículo"How We Scaled Bert to Serve 1+ Billion Daily Requests on CPUs", que, como se muestra en ...
Get Procesamiento del Lenguaje Natural con Transformadores, Edición Revisada now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.