Traitement du langage naturel avec les transformateurs, édition révisée
by Lewis Tunstall, Leandro von Werra, Thomas Wolf
Chapitre 8. Rendre les transformateurs efficaces dans la production
Cet ouvrage a été traduit à l'aide de l'IA. Tes réactions et tes commentaires sont les bienvenus : translation-feedback@oreilly.com
Dans les chapitres précédents, tu as vu comment les transformateurs peuvent être affinés pour produire d'excellents résultats sur un large éventail de tâches. Cependant, dans de nombreuses situations, la précision (ou toute autre mesure pour laquelle tu optimises) ne suffit pas ; ton modèle de pointe n'est pas très utile s'il est trop lent ou trop grand pour répondre aux exigences commerciales de ton application. Une alternative évidente consiste à former un modèle plus rapide et plus compact, mais la réduction de la capacité du modèle s'accompagne souvent d'une dégradation des performances. Alors que faire lorsque tu as besoin d'un modèle rapide, compact et pourtant très précis ?
Dans ce chapitre, nous allons explorer quatre techniques complémentaires qui peuvent être utilisées pour accélérer les prédictions et réduire l'empreinte mémoire de tes modèles de transformateurs : la distillation des connaissances, la quantification, l'élagage et l'optimisation des graphes avec le format Open Neural Network Exchange (ONNX) et l'ONNX Runtime (ORT). Nous verrons également comment certaines de ces techniques peuvent être combinées pour produire des gains de performance significatifs. Par exemple, c'est l'approche adoptée par l'équipe d'ingénieurs de Roblox dans leur article"How We Scaled Bert ...