book

Traitement du langage naturel appliqué à l'entreprise

Name: Traitement du langage naturel appliqué à l'entreprise
ISBN: 9798341618299

by Ankur A. Patel, Ajay Uppili Arasanipalai

November 2024

Intermediate to advanced

336 pages

10h 2m

French

O'Reilly Media, Inc.

Read now

Unlock full access

Préface
Qu'est-ce que le traitement du langage naturel ?Pourquoi devrais-je lire ce livre ?Que dois-je déjà savoir ?De quoi parle ce livre ?Comment ce livre est-il organisé ?Conventions utilisées dans ce livreUtiliser des exemples de codeApprentissage en ligne O'ReillyComment nous contacterRemerciementsAjayAnkur
I. Égratigner la surface
1. Introduction à la PNL
Qu'est-ce que la PNL ?Applications populairesHistoirePoints d'inflexionUn dernier motPrincipes de base de la PNLDéfinir les tâches de la PNLConfigurer l'environnement de programmationspaCy, fast.ai, et Hugging FaceEffectuer des tâches de PNL à l'aide de spaCyConclusion
2. Transformateurs et apprentissage par transfert
Formation avec fastaiUtilisation de la bibliothèque fastaiULMFiT pour l'apprentissage par transfertMise au point d'un modèle linguistique sur IMDbFormation d'un classificateur de texteInférence avec le visage étreintModèles de chargementGénérer des prédictionsConclusion
3. Tâches et applications NLP
Modèles linguistiques préformésApprentissage par transfert et réglage finTâches de la PNLEnsemble de données en langage naturelExplorer l'ensemble de données AGTâche NLP #1 : Reconnaissance d'entités nomméesEffectuer l'inférence à l'aide du modèle spaCy originalNER personnaliséAnnoter via Prodigy : NEREntraîne le modèle NER personnalisé à l'aide de spaCyModèle de NER personnalisé par rapport au modèle de NER originalTâche NLP n°2 : classification des textesAnnoter via Prodigy : Classification de texteEntraîner des modèles de classification de texte à l'aide de spaCyConclusion
II. Les rouages de la machine
4. La tokenisation
Un tokenizer minimalTokéniseurs de visages étreintsTokenisation des sous-motsConstruis ton propre tokenizerConclusion
5. Embeddings : Comment les machines "comprennent" les mots
Comprendre ou lire un texteVecteurs de motsWord2VecEmbeddings à l'ère de l'apprentissage par transfertL'intégration dans la pratiquePrétraitementModèleFormationValidationIntégrer des choses qui ne sont pas des motsFaire de la musique vectoriséeQuelques conseils généraux pour la création d'embarquements personnalisésConclusion
6. Réseaux neuronaux récurrents et autres modèles de séquences.
Réseaux neuronaux récurrentsRNNs dans PyTorch à partir de zéroRNN bidirectionnelSéquence à séquence à l'aide de RNNMémoire à long termeUnités récurrentes à accès limitéConclusion
7. Transformateurs
Construire un transformateur à partir de zéroMécanismes de l'attentionAttention au produit DotAttention au produit de points mis à l'échelleAuto-attention à plusieurs têtesCapacité d'attention adaptativeMémoire persistante/attention totaleProduit - Mémoire cléTransformateurs pour la vision par ordinateurConclusion

8. BERTologie : La mise en place de l'ensemble
ImageNetLa puissance des modèles préformésLe chemin vers le moment ImageNet du NLPEmboîtements de mots pré-formésLes limites du codage One-HotWord2VecGloVefastTextApprentissages de mots préformés en fonction du contexteModèles séquentielsDonnées séquentielles et importance des modèles séquentielsRNNsRNN à la vanilleRéseaux LSTMGRUsMécanismes de l'attentionTransformateursTransformateur-XLLe moment ImageNet du NLPMise au point du modèle de langage universelELMoBERTBERTologieGPT-1, GPT-2, GPT-3Conclusion
III. À l'extérieur du mur
9. Les outils du métier
Cadres de travail pour le Deep LearningPyTorchTensorFlowJaxJuliaVisualisation et suivi des expériencesTensorBoardPoids et biaisNeptuneComèteMLflowAutoMLH2O.aiDataikuDataRobotInfrastructure ML et informatiqueEspace PapierFloydHubGoogle ColabNoyaux KaggleLambda GPU CloudInférence sur l'appareilONNXML de baseAccélérateurs de bordInférence et apprentissage automatique dans le cloud en tant que service.AWSMicrosoft AzureGoogle Cloud PlatformIntégration et livraison continuesConclusion
10. Visualisation
Notre première application StreamlitCrée l'application StreamlitDéploie l'application StreamlitExplore l'application Web StreamlitConstruire et déployer une application Streamlit pour un NER personnaliséConstruis et déploie une application Streamlit pour la classification de texte sur l'ensemble de données AG News.Construire et déployer une application Streamlit pour la classification de texte sur du texte personnalisé.Conclusion
11. Production
Scientifiques, ingénieurs et analystes de donnéesPrototypage, déploiement et maintenanceCahiers et scriptsDatabricks : Ta plateforme unifiée d'analyse de donnéesPrise en charge des données massives (Big Data)Prise en charge de plusieurs langages de programmationPrise en charge des cadres de MLPrise en charge du référentiel de modèles, du contrôle d'accès, du lignage des données et du versionnage.Configuration de DatabricksConfigurer l'accès au panier S3Configurer les bibliothèquesCréer une grappeCréer un carnet de notesActiver le script d'initialisation et redémarrer le clusterTest de vitesse d'exécution : Inférence sur NER en utilisant spaCyEmplois dans le domaine de l'apprentissage automatiqueCarnet du pipeline de productionEmplois programmés en apprentissage automatiquePipeline d'apprentissage automatique piloté par les événementsMLflowModèle d'enregistrement et de registreServir le modèle MLflowAlternatives à DatabricksAmazon SageMakerCloud de SaturneConclusion
12. Conclusion
Dix dernières leçonsLeçon 1 : Commence par des approches simplesLeçon 2 : Tirer parti de la communautéLeçon 3 : Ne pas créer à partir de rien, lorsque c'est possibleLeçon 4 : L'intuition et l'expérience contredisent la théorieLeçon 5 : Combattre la fatigue décisionnelleLeçon 6 : Les données sont reinesLeçon 7 : S'appuyer sur les humainsLeçon 8 : Associe-toi à des ingénieurs vraiment géniauxLeçon 9 : EnsembleLeçon 10 : S'amuserLe mot de la fin
A. Mise à l'échelle
Formation multi-GPUFormation distribuéeQu'est-ce qui rend l'apprentissage en profondeur rapide ?
B. CUDA
Fils et blocs de filsÉcrire des noyaux CUDACUDA en pratique
Index
À propos des auteurs

Content preview from Traitement du langage naturel appliqué à l'entreprise

Chapitre 5. Embeddings : Comment les machines"comprennent" les mots

Cet ouvrage a été traduit à l'aide de l'IA. Tes réactions et tes commentaires sont les bienvenus : translation-feedback@oreilly.com

Au cours de la première étape de notre voyage dans le NLP de niveau inférieur, nous avons compris comment utiliser des tokenizers pour masser nos données textuelles dans un format plus pratique à lire pour un réseau neuronal. La prochaine pièce du puzzle est la couche d'intégration. Si les tokenizers sont ce que nos modèles utilisent pour lire le texte, les embeddings sont ce qu'ils utilisent pour lecomprendre.

Comprendre ou lire un texte

Depuis longtemps, les machines sont capables de représenter des caractères (et par extension, des mots, des phrases, etc.) sous forme numérique. L'idée d'utiliser un schéma de codage binaire pour le langage et la communication remonte au moins à l'invention du télégraphe au 19ème siècle.

L'une des premières formes de codage de la langue était le code Morse. Dans ce système, des signaux binaires, tels que l'allumage et l'extinction d'une lumière ou l'envoi d'une séquence d'impulsions audio longues et courtes, étaient utilisés pour représenter différents caractères. Si deux personnes disposaient d'un mode de communication binaire et se mettaient d'accord sur une norme concernant la signification des séquences binaires, elles pouvaient communiquer de manière fiable en code Morse. Il s'agissait de l'une des méthodes les plus anciennes et les plus simples ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Apprentissage automatique appliqué et IA pour les ingénieurs

Publisher Resources

ISBN: 9798341618299

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

Traitement du langage naturel appliqué à l'entreprise

by Ankur A. Patel, Ajay Uppili Arasanipalai

Chapitre 5. Embeddings : Comment les machines"comprennent" les mots

Comprendre ou lire un texte

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.