book

Traitement du langage naturel avec les transformateurs, édition révisée

by Lewis Tunstall, Leandro von Werra, Thomas Wolf

November 2024

Intermediate to advanced

408 pages

12h 35m

French

O'Reilly Media, Inc.

Book available

Read now

Unlock full access

À qui s'adresse ce livre ?Ce que tu apprendrasExigences en matière de logiciels et de matérielConventions utilisées dans ce livreUtiliser des exemples de codeApprentissage en ligne O'ReillyComment nous contacterRemerciementsLewisLeandroThomas
Le cadre du codeur-décodeurMécanismes de l'attentionApprentissage par transfert dans la PNLTransformateurs de visages câlins : Combler le fosséUn tour d'horizon des applications des transformateursClassification des textesReconnaissance des entités nomméesRéponse aux questionsRésuméTraductionGénération de texteL'écosystème du visage étreintLe carrefour des visages câlinsTokéniseurs de visages étreintsJeux de données sur les visages étreintsAccélérer l'étreinte du visagePrincipaux défis posés par les transformateursConclusion
L'ensemble des donnéesPremier aperçu des ensembles de données sur les visages étreintsDes ensembles de données aux cadres de donnéesRegarder la répartition des classesQuelle est la longueur de nos tweets ?Du texte aux jetonsTokenisation des caractèresTokenisation des motsTokenisation des sous-motsTokenisation de l'ensemble des donnéesFormation d'un classificateur de texteLes transformateurs en tant qu'extracteurs de caractéristiquesTransformateurs de précisionConclusion
L'architecture du transformateurL'encodeurL'attention à soiLa couche d'alimentationAjout de la normalisation des couchesEmboîtements positionnelsAjout d'une tête de classificationLe décodeurRencontre les transformateursL'arbre de vie des transformateursLa branche des encodeursLa branche des décodeursLa branche Encodeur-DécodeurConclusion
L'ensemble des donnéesTransformateurs multilinguesRegarder de plus près la tokenisationLe pipeline du tokenizerLe tokenizer SentencePieceTransformateurs pour la reconnaissance des entités nomméesL'anatomie de la classe de modèles TransformersCorps et têtesCréation d'un modèle personnalisé pour la classification des jetonsChargement d'un modèle personnaliséTokenisation des textes pour la NERMesures du rendementMise au point de XLM-RoBERTaAnalyse des erreursTransfert interlinguistiqueQuand est-ce que le transfert à partir d'un point zéro a du sens ?Mise au point sur plusieurs langues à la foisInteragir avec les widgets du modèleConclusion
Le défi de la génération d'un texte cohérentDécodage par recherche avideDécodage de la recherche de faisceauxMéthodes d'échantillonnageÉchantillonnage Top-k et NucleusQuelle est la meilleure méthode de décodage ?Conclusion
L'ensemble de données CNN/DailyMailPipelines de résumé de texteRésumé RéférenceGPT-2T5BARTPEGASUSComparer différents résumésMesurer la qualité du texte généréBLEUROUGEÉvaluation de PEGASUS sur l'ensemble de données CNN/DailyMailFormation d'un modèle de résuméÉvaluation de PEGASUS sur SAMSumMise au point de PEGASUSGénérer des résumés de dialogueConclusion
Construire un système d'assurance qualité basé sur l'examenL'ensemble des donnéesExtraire des réponses d'un texteUtiliser Haystack pour construire un pipeline d'assurance qualitéAméliorer notre pipeline d'assurance qualitéÉvaluer le retrieverÉvaluer le lecteurAdaptation du domaineÉvaluer l'ensemble de la chaîne d'assurance qualitéGoing Beyond Extractive QA (Aller au-delà de l'assurance qualité en matière d'extraction)Conclusion
La détection des intentions comme étude de casCréation d'un repère de performanceRendre les modèles plus petits grâce à la distillation des connaissancesDistillation des connaissances pour un réglage finDistillation des connaissances pour la préformationCréation d'un formateur en distillation des connaissancesChoisir une bonne initialisation de l'élèveTrouver de bons hyperparamètres avec OptunaAnalyse comparative de notre modèle distilléRendre les modèles plus rapides grâce à la quantificationAnalyse comparative de notre modèle quantifiéOptimiser l'inférence avec ONNX et le Runtime ONNXRendre les modèles plus sobres grâce à l'élagage des poidsLa sparité dans les réseaux neuronaux profonds.Méthodes d'élagage du poidsConclusion

Construire un outil d'étiquetage des problèmes GitHubObtenir les donnéesPréparation des donnéesCréation d'ensembles de formationCréer des tranches de formationMise en œuvre d'une ligne de Bayes naïveTravailler avec des données non étiquetéesTravailler avec quelques étiquettesAugmentation des donnéesUtiliser les embeddings comme une table de rechercheMise au point d'un transformateur à la vanilleApprentissage en contexte et en quelques clics avec des prompts.Exploiter les données non étiquetéesAffiner un modèle linguistiqueAffiner un classificateurMéthodes avancéesConclusion
Les grands ensembles de données et où les trouverDéfis liés à la constitution d'un corpus à grande échelleCréation d'un ensemble de données sur les codes personnalisésTravailler avec de grands ensembles de donnéesAjout d'ensembles de données au carrefour des visages étreintsConstruire un tokenizerLe modèle du tokenizerMesurer la performance du tokenizerUn tokenizer pour PythonFormation d'un tokenizerEnregistrement d'un tokenizer personnalisé sur le HubFormer un modèle à partir de zéroUne histoire d'objectifs de préformationInitialisation du modèleImplémentation du DataloaderDéfinir la boucle de formationLa course d'entraînementRésultats et analyseConclusion
Transformateurs de mise à l'échelleLois d'échelleLes défis de la mise à l'échelleAttention, s'il te plaît !Attention éparseAttention linéariséeAller au-delà du texteVisionTablesTransformateurs multimodauxDe la parole au texteVision et texteQue faire à partir d'ici ?

Content preview from Traitement du langage naturel avec les transformateurs, édition révisée

Chapitre 9. Faire face à peu ou pas d'étiquettes

Cet ouvrage a été traduit à l'aide de l'IA. Tes réactions et tes commentaires sont les bienvenus : translation-feedback@oreilly.com

Il y a une question si profondément ancrée dans l'esprit de tous les scientifiques des données que c'est généralement la première chose qu'ils demandent au début d'un nouveau projet : y a-t-il des données annotées ? Le plus souvent, la réponse est " non " ou " un peu ", suivie d'une attente du client selon laquelle les modèles d'apprentissage automatique fantaisistes de ton équipe devraient tout de même donner de bons résultats. Étant donné que l'entraînement de modèles sur de très petits ensembles de données ne donne généralement pas de bons résultats, une solution évidente consiste à annoter davantage de données. Cependant, cela prend du temps et peut être très coûteux, surtout si chaque annotation nécessite une expertise du domaine pour êtrevalidée.

Heureusement, il existe plusieurs méthodes qui conviennent parfaitement pour traiter avec peu ou pas d'étiquettes ! Tu connais peut-être déjà certaines d'entre elles, comme l'apprentissage à partir de zéro ou de peu d'échantillons, comme en témoigne la capacité impressionnante de GPT-3 à effectuer une gamme variée de tâches avec seulement quelques douzaines d'exemples.

En général, la méthode la plus performante dépend de la tâche, de la quantité de données disponibles et de la fraction de ces données qui est étiquetée. L'arbre de décision présenté à la ...