book

L'IA générative sur AWS

by Chris Fregly, Antje Barth, Shelbee Eigenbrode

November 2024

Intermediate to advanced

312 pages

8h 54m

French

O'Reilly Media, Inc.

Book available

Read now

Unlock full access

Conventions utilisées dans ce livreUtilisation d'exemples de codeApprentissage en ligne O'ReillyComment nous contacterRemerciementsChrisAntjeShelbee
Cas d'utilisation et tâchesModèles de fondation et moyeux de modèlesCycle de vie d'un projet d'IA générativeL'IA générative sur AWSPourquoi l'IA générative sur AWS ?Construire des applications d'IA générative sur AWSRésumé
Les prompts et les compléments d'informationJetonsIngénierie prompteStructure du promptInstructionContexteApprentissage en contexte avec inférence à quelques coupsInférence à partir de zéroInférence ponctuelleInférence à quelques coupsL'apprentissage en contexte a mal tournéMeilleures pratiques d'apprentissage en contexteMeilleures pratiques en matière d'ingénierie prompteParamètres de configuration de l'inférenceRésumé
Modèles de base pour les grandes languesTokenizersVecteurs d'encastrementArchitecture du transformateurFenêtre des entrées et du contexteCouche d'intégrationEncodeurAttention à soiDécodeurSortie SoftmaxTypes de modèles de fondation basés sur des transformateursJeux de données de pré-entraînementLois d'échelle Modèles optimaux par ordinateurRésumé
Défis de la mémoireTypes de données et précision numériqueQuantificationfp16bfloat16fp8int8Optimiser les couches d'auto-attentionFlashAttentionAttention aux requêtes groupéesInformatique distribuéeDonnées distribuées ParallèleDonnées entièrement partagées en parallèleComparaison des performances du FSDP par rapport au DDPCalcul distribué sur AWSDonnées parallèles entièrement partagées avec Amazon SageMakerAWS Neuron SDK et AWS TrainiumRésumé
Mise au point de l'instructionLlama 2-ChatFalcon-ChatFLAN-T5Ensemble de données d'instructionEnsemble de données sur les instructions multitâchesFLAN : Exemple de données d'instructions multitâchesModèle de promptConvertir un ensemble de données personnalisé en un ensemble de données d'instructionMise au point de l'instructionAmazon SageMaker StudioAmazon SageMaker JumpStartEstimateur SageMaker d'Amazon pour le visage d'accoladeL'évaluationMesures d'évaluationRepères et ensembles de donnéesRésumé
Ajustement complet par rapport à PEFTLoRA et QLoRAPrincipes de base de la LoRARangModules et couches ciblesApplication de la LoRAFusionner l'adaptateur LoRA avec le modèle originalMaintenir des adaptateurs LoRA séparésRéglages fins et complets par rapport à la performance LoRAQLoRARéglage des prompts et invites doucesRésumé
Alignement humain : Utile, honnête et inoffensifAperçu de l'apprentissage par renforcementFormer un modèle de récompense personnaliséCollecte des données d'apprentissage avec l'homme dans la boucleExemples d'instructions pour les étiqueteurs humainsUtiliser Amazon SageMaker Ground Truth pour les annotations humainesPréparer les données de classement pour former un modèle de récompenseForme le modèle de récompenseModèle de récompense existant : Détecteur de toxicité par MetaAjuster avec l'apprentissage par renforcement à partir des commentaires humainsUtiliser le modèle de récompense avec RLHFOptimisation de la politique proximale Algorithme RLEffectuer un réglage fin de la RLHF avec PPOAtténuer le piratage des récompensesUtilisation d'un réglage fin efficace en fonction des paramètres avec RLHFÉvaluer le modèle affiné de RLHFÉvaluation qualitativeÉvaluation quantitativeModèle d'évaluation de la chargeDéfinir la fonction d'agrégation des mesures d'évaluationCompare les mesures d'évaluation avant et aprèsRésumé
Optimisation des modèles pour l'inférenceÉlagageQuantification post-entraînement avec GPTQDistillationGrand conteneur d'inférence de modèleAWS Inferentia : Matériel conçu pour l'inférenceMise à jour du modèle et stratégies de déploiementTest A/BDéploiement de l'ombreMesures et surveillanceMise à l'échelle automatiquePolitiques de mise à l'échelle automatiqueDéfinir une politique de mise à l'échelle automatiqueRésumé
Limites du modèle de la grande langueHallucinationCritères d'évaluation des connaissancesGénération assistée par récupérationSources externes de connaissancesFlux de travail du RAGChargement des documents Chunking (découpage)Recherche de documents et reclassementAugmentation prompteOrchestration et mise en œuvre des RAGChargement et regroupement de documentsStockage et récupération de vecteurs intégrésChaînes de récupérationReranking avec pertinence marginale maximaleAgentsCadre de ReactCadre linguistique assisté par programmeApplications de l'IA générativeFMOps : Opérationnaliser le cycle de vie du projet d'IA générativeConsidérations sur l'expérimentationConsidérations sur le développement Considérations relatives au déploiement de la productionRésumé

Cas d'utilisationMeilleures pratiques en matière d'ingénierie des prompts multimodaux.Génération et amélioration d'imagesGénération d'imagesÉdition et amélioration d'imagesInpainting, Outpainting, Depth-to-Image (profondeur de l'image)PeinturePeinture sur toileProfondeur de l'imageSous-titrage des images et réponses aux questions visuellesLégende de l'imageModération du contenuRéponse aux questions visuelles Évaluation du modèleTâches de génération de texte à partir d'imagesDiffusion vers l'avantRaisonnement non verbalPrincipes de base de l'architecture de diffusionDiffusion vers l'avantDiffusion inverséeU-Net Diffusion stable 2 ArchitectureEncodeur de texteU-Net et le processus de diffusionConditionnement du texteAttention croiséePlanificateurDécodeur d'imagesStable Diffusion XL ArchitectureU-Net et l'attention croiséeRaffineurConditionnementRésumé
ControlNetMise au pointDreamBoothDreamBooth et PEFT-LoRAInversion textuelleAlignement humain avec apprentissage par renforcement à partir du feedback humainRésumé
Modèles de fondations rocheusesModèles de fondation Amazon TitanModèles de fondation de diffusion stable de Stability AIAPI d'inférence BedrockGrands modèles linguistiquesGénérer le code SQLRésume le texteEmboîtementsMise au pointAgentsModèles multimodauxCréer des images à partir d'un texteCréer des images à partir d'imagesConfidentialité des données et sécurité du réseauGouvernance et suiviRésumé

Content preview from L'IA générative sur AWS

Chapitre 4. Optimisation de la mémoire et du calcul

Cet ouvrage a été traduit à l'aide de l'IA. Tes réactions et tes commentaires sont les bienvenus : translation-feedback@oreilly.com

Au chapitre 3, tu as exploré les meilleures pratiques pour expérimenter et sélectionner un modèle de base pour ton cas d'utilisation. L'étape suivante consiste généralement à personnaliser le modèle en fonction de tes besoins spécifiques et de tes ensembles de données. Cela peut inclure l'adaptation du modèle à tes ensembles de données à l'aide d'une technique appelée réglage fin, que tu exploreras plus en détail au chapitre 5. Lors de l'entraînement ou du réglage fin de modèles de fondations volumineux, tu es souvent confronté à des problèmes de calcul - en particulier, comment faire tenir des modèles volumineux dans la mémoire du GPU.

Dans ce chapitre, tu vas explorer des techniques qui permettent de surmonter les limitations de mémoire. Tu apprendras comment appliquer la quantification et l'apprentissage distribué pour minimiser la RAM requise du GPU, et comment mettre à l'échelle l'apprentissage du modèle horizontalement sur plusieurs GPU pour les modèles plus importants.

Par exemple, le modèle Falcon original 40 milliards de paramètres a été formé sur une grappe de 48 ml.p4d.24xlarge instances Amazon SageMaker composées de 384 GPU NVIDIA A100, 15 To de RAM GPU et 55 To de RAM CPU. Une version plus récente de Falcon a été entraînée sur une grappe de 392 ml.p4d.24xlarge instances SageMaker composées ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Start your free trial

Deploying Next Generation Multicast-enabled Applications

Publisher Resources

ISBN: 9798341615045Supplemental Content

L'IA générative sur AWS

by Chris Fregly, Antje Barth, Shelbee Eigenbrode

Chapitre 4. Optimisation de la mémoire et du calcul

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

You might also like

Deploying Next Generation Multicast-enabled Applications

Science des données sur AWS

L'IA explicable pour les praticiens

Authorized Self-Study Guide Building Scalable Cisco Internetworks (BSCI), Third Edition

Publisher Resources

Chapitre 4. Optimisation de la mémoire et du calcul

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,and much more.

You might also like

Deploying Next Generation Multicast-enabled Applications

Science des données sur AWS

L'IA explicable pour les praticiens

Authorized Self-Study Guide Building Scalable Cisco Internetworks (BSCI), Third Edition

Publisher Resources

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.