book

L'IA générative sur AWS

by Chris Fregly, Antje Barth, Shelbee Eigenbrode

November 2024

Intermediate to advanced

312 pages

8h 54m

French

O'Reilly Media, Inc.

Book available

Read now

Unlock full access

Conventions utilisées dans ce livreUtilisation d'exemples de codeApprentissage en ligne O'ReillyComment nous contacterRemerciementsChrisAntjeShelbee
Cas d'utilisation et tâchesModèles de fondation et moyeux de modèlesCycle de vie d'un projet d'IA générativeL'IA générative sur AWSPourquoi l'IA générative sur AWS ?Construire des applications d'IA générative sur AWSRésumé
Les prompts et les compléments d'informationJetonsIngénierie prompteStructure du promptInstructionContexteApprentissage en contexte avec inférence à quelques coupsInférence à partir de zéroInférence ponctuelleInférence à quelques coupsL'apprentissage en contexte a mal tournéMeilleures pratiques d'apprentissage en contexteMeilleures pratiques en matière d'ingénierie prompteParamètres de configuration de l'inférenceRésumé
Modèles de base pour les grandes languesTokenizersVecteurs d'encastrementArchitecture du transformateurFenêtre des entrées et du contexteCouche d'intégrationEncodeurAttention à soiDécodeurSortie SoftmaxTypes de modèles de fondation basés sur des transformateursJeux de données de pré-entraînementLois d'échelle Modèles optimaux par ordinateurRésumé
Défis de la mémoireTypes de données et précision numériqueQuantificationfp16bfloat16fp8int8Optimiser les couches d'auto-attentionFlashAttentionAttention aux requêtes groupéesInformatique distribuéeDonnées distribuées ParallèleDonnées entièrement partagées en parallèleComparaison des performances du FSDP par rapport au DDPCalcul distribué sur AWSDonnées parallèles entièrement partagées avec Amazon SageMakerAWS Neuron SDK et AWS TrainiumRésumé
Mise au point de l'instructionLlama 2-ChatFalcon-ChatFLAN-T5Ensemble de données d'instructionEnsemble de données sur les instructions multitâchesFLAN : Exemple de données d'instructions multitâchesModèle de promptConvertir un ensemble de données personnalisé en un ensemble de données d'instructionMise au point de l'instructionAmazon SageMaker StudioAmazon SageMaker JumpStartEstimateur SageMaker d'Amazon pour le visage d'accoladeL'évaluationMesures d'évaluationRepères et ensembles de donnéesRésumé
Ajustement complet par rapport à PEFTLoRA et QLoRAPrincipes de base de la LoRARangModules et couches ciblesApplication de la LoRAFusionner l'adaptateur LoRA avec le modèle originalMaintenir des adaptateurs LoRA séparésRéglages fins et complets par rapport à la performance LoRAQLoRARéglage des prompts et invites doucesRésumé
Alignement humain : Utile, honnête et inoffensifAperçu de l'apprentissage par renforcementFormer un modèle de récompense personnaliséCollecte des données d'apprentissage avec l'homme dans la boucleExemples d'instructions pour les étiqueteurs humainsUtiliser Amazon SageMaker Ground Truth pour les annotations humainesPréparer les données de classement pour former un modèle de récompenseForme le modèle de récompenseModèle de récompense existant : Détecteur de toxicité par MetaAjuster avec l'apprentissage par renforcement à partir des commentaires humainsUtiliser le modèle de récompense avec RLHFOptimisation de la politique proximale Algorithme RLEffectuer un réglage fin de la RLHF avec PPOAtténuer le piratage des récompensesUtilisation d'un réglage fin efficace en fonction des paramètres avec RLHFÉvaluer le modèle affiné de RLHFÉvaluation qualitativeÉvaluation quantitativeModèle d'évaluation de la chargeDéfinir la fonction d'agrégation des mesures d'évaluationCompare les mesures d'évaluation avant et aprèsRésumé
Optimisation des modèles pour l'inférenceÉlagageQuantification post-entraînement avec GPTQDistillationGrand conteneur d'inférence de modèleAWS Inferentia : Matériel conçu pour l'inférenceMise à jour du modèle et stratégies de déploiementTest A/BDéploiement de l'ombreMesures et surveillanceMise à l'échelle automatiquePolitiques de mise à l'échelle automatiqueDéfinir une politique de mise à l'échelle automatiqueRésumé
Limites du modèle de la grande langueHallucinationCritères d'évaluation des connaissancesGénération assistée par récupérationSources externes de connaissancesFlux de travail du RAGChargement des documents Chunking (découpage)Recherche de documents et reclassementAugmentation prompteOrchestration et mise en œuvre des RAGChargement et regroupement de documentsStockage et récupération de vecteurs intégrésChaînes de récupérationReranking avec pertinence marginale maximaleAgentsCadre de ReactCadre linguistique assisté par programmeApplications de l'IA générativeFMOps : Opérationnaliser le cycle de vie du projet d'IA générativeConsidérations sur l'expérimentationConsidérations sur le développement Considérations relatives au déploiement de la productionRésumé

Cas d'utilisationMeilleures pratiques en matière d'ingénierie des prompts multimodaux.Génération et amélioration d'imagesGénération d'imagesÉdition et amélioration d'imagesInpainting, Outpainting, Depth-to-Image (profondeur de l'image)PeinturePeinture sur toileProfondeur de l'imageSous-titrage des images et réponses aux questions visuellesLégende de l'imageModération du contenuRéponse aux questions visuelles Évaluation du modèleTâches de génération de texte à partir d'imagesDiffusion vers l'avantRaisonnement non verbalPrincipes de base de l'architecture de diffusionDiffusion vers l'avantDiffusion inverséeU-Net Diffusion stable 2 ArchitectureEncodeur de texteU-Net et le processus de diffusionConditionnement du texteAttention croiséePlanificateurDécodeur d'imagesStable Diffusion XL ArchitectureU-Net et l'attention croiséeRaffineurConditionnementRésumé
ControlNetMise au pointDreamBoothDreamBooth et PEFT-LoRAInversion textuelleAlignement humain avec apprentissage par renforcement à partir du feedback humainRésumé
Modèles de fondations rocheusesModèles de fondation Amazon TitanModèles de fondation de diffusion stable de Stability AIAPI d'inférence BedrockGrands modèles linguistiquesGénérer le code SQLRésume le texteEmboîtementsMise au pointAgentsModèles multimodauxCréer des images à partir d'un texteCréer des images à partir d'imagesConfidentialité des données et sécurité du réseauGouvernance et suiviRésumé

Content preview from L'IA générative sur AWS

Chapitre 8. Optimisation du déploiement des modèles

Cet ouvrage a été traduit à l'aide de l'IA. Tes réactions et tes commentaires sont les bienvenus : translation-feedback@oreilly.com

Après avoir adapté ton modèle à ta tâche cible, tu voudras finalement déployer ton modèle afin de pouvoir commencer à interagir avec lui et éventuellement l'intégrer dans une application conçue pour le consommer.

Avant de déployer ton modèle génératif, tu dois comprendre les ressources dont il peut avoir besoin ainsi que l'expérience prévue pour interagir avec lui. Pour déterminer les ressources dont ton modèle aura besoin, tu devras identifier des exigences telles que la vitesse à laquelle ton modèle doit générer des compléments, le budget de calcul dont tu disposes et les compromis que tu es prêt à faire en ce qui concerne les performances du modèle pour pouvoir atteindre une vitesse d'inférence plus rapide et réduire potentiellement les coûts de stockage.

Dans ce chapitre, tu vas explorer différentes techniques pour effectuer des optimisations post-entraînement sur ton modèle, notamment l'élagage, la quantification et la distillation. D'autres considérations et réglages potentiels de tes configurations de déploiement devront également être effectués après le déploiement, comme la sélection des ressources informatiques optimales pour équilibrer les coûts et les performances.

Optimisation des modèles pour l'inférence

La taille des modèles d'IA générative présente souvent un défi pour le déploiement ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Start your free trial

Deploying Next Generation Multicast-enabled Applications

Publisher Resources

ISBN: 9798341615045Supplemental Content

L'IA générative sur AWS

by Chris Fregly, Antje Barth, Shelbee Eigenbrode

Chapitre 8. Optimisation du déploiement des modèles

Optimisation des modèles pour l'inférence

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

You might also like

Deploying Next Generation Multicast-enabled Applications

Science des données sur AWS

L'IA explicable pour les praticiens

Authorized Self-Study Guide Building Scalable Cisco Internetworks (BSCI), Third Edition

Publisher Resources

Chapitre 8. Optimisation du déploiement des modèles

Optimisation des modèles pour l'inférence

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,and much more.

You might also like

Deploying Next Generation Multicast-enabled Applications

Science des données sur AWS

L'IA explicable pour les praticiens

Authorized Self-Study Guide Building Scalable Cisco Internetworks (BSCI), Third Edition

Publisher Resources

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.