book

Guide d'étude AWS Certified Data Engineer Associate

by Sakti Mishra, Dylan Qu, Anusha Challa

August 2025

Intermediate to advanced

476 pages

15h 25m

French

O'Reilly Media, Inc.

Book available

Read now

Unlock full access

Ce que ce livre n'est pasCe dont parle ce livreQui devrait lire ce livre ?Comment ce livre est organiséAccès aux images du livre en ligneConventions utilisées dans ce livreApprentissage en ligne O'ReillyComment nous contacterRemerciements
Qu'est-ce qu'un ingénieur de données ?Devenir un associé AWS Data EngineerSujets d'examenFormat de l'examenS'inscrire à l'examenQuestions d'examenPense comme un architecte de solutions AWS : Traduire un cadre de résolution de problèmes du monde réel en certificationLe cadre de résolution des problèmes de l'architecte de solutionsExemple concret : Conception d'une plateforme d'analyse de flux sans serveur pour détecter les fraudes.Comment ce processus de réflexion s'applique aux questions de certificationPlan d'étudeConclusion de l'examen
Bases de données et types de bases de donnéesQu'est-ce qu'une base de données ?Qu'est-ce qu'un système de gestion de base de données ?Types de bases de donnéesBases de données hiérarchiquesBases de données relationnellesBases de données NoSQLOLTP versus OLAPAperçu du Big DataCadres de traitement distribué pour le Big DataMapReduceSparkFlinkHivePrestoTrinoQu'est-ce qu'un lac de données ?Qu'est-ce qu'un entrepôt de données ?Entrepôt de données versus lac de donnéesETL versus ELTDifférentes façons de traiter les donnéesPipeline de traitement par lotsTraitement des flux en temps réelTraitement piloté par les événementsArchitecture de haut niveau Aperçu des pipelines de traitement des donnéesTravailler avec des dépôts de codeQu'est-ce qu'un dépôt de code ?Comment travailler avec les dépôts de codeCI/CDLe Cloud Computing et AWSQu'est-ce que le Cloud Computing ?Aperçu des services Web d'AmazonPour commencer avec AWSComment configurer un compte AWS ?Configurer l'accès avec AWS IAMCréer un utilisateur IAM pour l'authentificationAjouter des permissions pour autoriser l'utilisateurQu'est-ce qu'une politique IAM ?Qu'est-ce qu'un rôle IAM ?Meilleures pratiques à suivre avec AWS IAMConclusionRessources
Services d'analyse AWSFlux de données Amazon KinesisAmazon Data FirehoseService géré par Amazon pour Apache FlinkAmazon Managed Streaming pour Apache KafkaArchitecture de référence : Modèle d'analyse en continu avec Apache Flink et MSKAWS GlueAWS Glue DataBrewAmazon AthenaAmazon EMRAmazon RedshiftAmazon QuickSightArchitecture de référence : Lakehouse avec Glue, Redshift et AthenaAmazon OpenSearch ServiceAmazon DataZoneAWS Lake FormationServices auxiliaires pour l'analyseIntégration des applicationsCalcul et conteneursBase de donnéesStockageApprentissage automatiqueMigration et transfertMise en réseau et diffusion de contenuSécurité, identité et conformitéGestion de la gouvernanceOutils pour développeursGestion financière du CloudOutil bien conçu d'AWSConclusionRessources supplémentaires
Ingestion de donnéesIngestion de données en temps réelKinesis Data Streams par rapport à Amazon MSKExemples de cas d'utilisation de l'ingestion de flux de donnéesIngestion de données à l'aide d'intégrations Zero-ETLIngestion de données à partir de bases de données avec CDC à l'aide du service de migration de données d'AWSSources prises en charge par AWS DMSCibles prises en charge pour AWS DMSExemples de cas d'utilisationMeilleures pratiques pour l'ingestion de donnéesMeilleures pratiques pour l'ingestion de flux de donnéesMeilleures pratiques pour choisir le mode de capacité de flux de donnéesMeilleures pratiques pour le ShardingMeilleures pratiques pour consommer des données à partir de KDSMeilleures pratiques pour Amazon MSKMeilleures pratiques pour Amazon Data FirehoseMeilleures pratiques pour les instances et les tâches de réplication AWS DMSMeilleures pratiques pour les tâches AWS DMS avec la cible Amazon RedshiftTransformation des donnéesTransformation de données par lotsTransformation de données en continuTransformation des données à l'aide d'AWS GlueConnecteurs GlueSignets GlueUnités de traitement des donnéesType de travailleurTravaux de collageSources et destinations des donnéesMeilleures pratiques pour AWS GlueTransformation de données avec Amazon EMRStockageOptions de déploiementTypes d'instancesMeilleures pratiques pour Amazon EMROptions d'AWS Glue par rapport à Amazon EMRTransformation de données basée sur SQL à l'aide d'Amazon RedshiftAmazon Redshift CalculStockage Amazon RedshiftTransformations de données SQLAmazon Managed Service pour Apache FlinkAmazon Data Firehose pour la transformationAWS Lambda pour la transformationChoisir le bon service de transformation en continuChoisir le bon service de transformation par lotsPréparation des données pour les personnes non techniquesRemplir les valeurs manquantesIdentifier les enregistrements en doubleFonctions de formatageIntégrer des données provenant de sources multiplesStructures de données imbriquées et non imbriquéesProtéger les données sensiblesAutres transformations de préparation des donnéesOrchestrer les pipelines de donnéesFonctions d'étape AWSFlux de travail gérés pour Apache AirflowExemple de cas d'utilisationFlux de travail AWS GlueExemple de cas d'utilisationPlanificateur Amazon RedshiftAmazon EventBridgeExemple de cas d'utilisationChoisir le bon service d'orchestrationConclusionQuestions pratiquesRessources supplémentaires
Choisir un magasin de donnéesServices de stockage de base AWSBases de données AWS CloudFormats de stockage des données pour les lacs de donnéesFormats de fichiers basés sur les lignesFormats de fichiers basés sur les colonnesFormats de tableConstruire une stratégie de données avec plusieurs magasins de donnéesSystèmes de catalogage de donnéesComposants des métadonnées et des catalogues de donnéesRemplir un catalogue de données AWS GlueMeilleures pratiques pour les catalogues de donnéesEnrichir les catalogues de données avec la classification des donnéesGérer le cycle de vie des donnéesSélection de solutions de stockage pour les données chaudes et froidesExemple : Création d'une solution d'analyse de logs à l'échelle du pétaoctet sur AWSDécisions relatives aux niveaux de stockage pour différents modèles d'accèsDéfinition de la politique de conservation des données et des stratégies d'archivageExécution des opérations COPY et UNLOAD pour déplacer des données entre Amazon S3 et Amazon RedshiftOptimiser la gestion des données avec Amazon S3Vue d'ensemble des classes de stockage S3Choisir la bonne classe de stockageS3 Intelligent-TieringGérer le cycle de vie des données avec Amazon S3 LifecycleSurveillance du cycle de vie des données Amazon S3Expiration des instantanés des formats de table ouvertsArchivage des données d'Amazon DynamoDB vers Amazon S3Assurer la résilience des données S3 avec le versionnage S3Activer le versionnage sur un S3 BucketVersionnement S3 et gestion du cycle de vie des objetsConception de modèles de données et de schémasIntroduction à la modélisation des donnéesStratégies de modélisation des données pour Amazon RedshiftStratégies de modélisation des données pour Amazon DynamoDBStratégies de modélisation des données pour les lacs de donnéesMeilleures pratiques pour les lacs de données Amazon S3ConclusionQuestions pratiquesRessources supplémentaires
Amazon QuickSightSources de donnéesJeux de donnéesActualiser les ensembles de données SPICEVisualisationsFormats de présentationCapacités de QuickSight GenBI (QuickSight Q)Analyse SQL avec Amazon AthenaChoix du moteur de rechercheGroupes de travailRéservations de capacitéAthena Federated SQLCas d'utilisationCapacités DDLMeilleures pratiques lors de l'utilisation d'Amazon AthenaAnalyse SQL avec Amazon RedshiftFonctions SQLAnalyse de données semi-structuréesAnalyse de données géospatialesInterroger des données à partir d'un lac de donnéesAnalyse de données provenant de magasins de données opérationnels à l'aide d'Amazon RedshiftRedshift ML et IA générativeFonctions définies par l'utilisateurAnalyse de données à l'aide de blocs-notesSessions interactives AWS GlueCarnets de notes Amazon EMRRésilience des pipelines de donnéesSurveillanceAlertesMaintenance des pipelines pilotée par les événements avec EventBridgeAssurer la qualité et la fiabilité des données : Deequ et DQDLContrôles automatisés de la qualité des données et gestion des erreursDépannage et optimisation des performancesPipelines CI/CDContrôle des versions et collaborationInfrastructure en tant que codeReprise après sinistre et haute disponibilitéOptimisation des coûts pour les pipelines de donnéesExploiter les services sans serveurMise à l'échelle automatiqueStockage hiérarchiséFormats en colonnesSurveiller et contrôler les coûts de transfert des donnéesSuivre les meilleures pratiques d'optimisation des coûtsConclusionQuestions pratiquesRessources supplémentaires
Sécurité du réseauAperçu d'Amazon VPCPrésentation des groupes de sécuritéMeilleures pratiques pour la configuration des groupes de sécurité pour les charges de travailConfiguration d'un VPC et d'un groupe de sécurité pour un cluster Amazon EMRServices gérés et services non gérésAperçu des points d'extrémité VPCAuthentification et autorisation des utilisateursAuthentification des utilisateurs avec des informations d'identification IAMAuthentification et autorisation basées sur les rôles IAMRôles liés aux servicesPolitiques gérées ou autogéréesActivation de l'authentification unique avec le centre d'identité AWS IAMSécurité des données et confidentialitéSécuriser les données dans Amazon S3Gérer les informations d'identification des bases de donnéesChiffrement et déchiffrement des données et gestion des clés de chiffrementGérer les clés de chiffrement avec AWS KMSActiver le chiffrement dans AWS Analytics ServicesDétection et suppression des données sensiblesContrôle d'accès à granularité fine avec AWS Lake FormationSécurité des bases de données dans Amazon RedshiftContrôle d'accès à granularité fine dans Amazon QuickSightGouvernance des donnéesGestion des métadonnées et catalogue techniquePartage des donnéesQualité des donnéesProfilage des donnéesGestion du cycle de vie des donnéesLignage des donnéesJournalisation et auditAnalyse des journaux à l'aide des services AWSConclusionQuestions pratiquesRessources supplémentaires
Pipeline de traitement des donnéesMise en oeuvre d'un pipeline de traitement par lotsCas d'utilisation et aperçu de l'architecturePrésentation de l'ensemble de données d'entréeGuide de mise en œuvre étape par étapeMeilleures pratiques et techniques d'optimisationMise en œuvre d'une chaîne de traitement en temps réelCas d'utilisation et aperçu de l'architectureGuide de mise en œuvre étape par étapeConclusionRessources

Amazon SageMaker Unified StudioCatalogue Amazon SageMakerAmazon SageMaker LakehouseAmazon SageMaker AITables Amazon S3Métadonnées Amazon S3Améliorer l'expérience des développeurs avec l'IA générativeGénération de code alimentée par l'IA avec Amazon Q DeveloperMise à jour automatisée des scripts dans AWS GlueDépannage généré par l'IA pour Spark dans AWS GlueConclusionRessources
Chapitre 4Chapitre 5Chapitre 6Chapitre 7Chapitre 9

Content preview from Guide d'étude AWS Certified Data Engineer Associate

Chapitre 8. Mise en œuvre des pipelines de traitement par lots et en continu

Cet ouvrage a été traduit à l'aide de l'IA. Tes réactions et tes commentaires sont les bienvenus : translation-feedback@oreilly.com

Dans les chapitres précédents, nous avons fourni une vue d'ensemble des services d'analyse de données AWS et expliqué comment concevoir un pipeline d'ingestion de données, appliquer des transformations, gérer les magasins de données, mettre en œuvre la sécurité et la gouvernance, et atteindre l'efficacité opérationnelle pour tes charges de travail analytiques.

Dans ce chapitre, nous allons fournir un guide de mise en œuvre pratique des cas d'utilisation populaires pour les pipelines de traitement par lots et en continu. Avant de commencer, assure-toi d'avoir créé un compte AWS et configuré les autorisations IAM comme indiqué au chapitre 2.

Pipeline de traitement des données

Un pipeline de traitement des données est une séquence d'étapes permettant d'affiner et de transformer les données et de les mettre à disposition dans un format pouvant être consommé par les utilisateurs finaux à des fins d'analyse. Les cas d'utilisation pour lesquels les données doivent être transformées peuvent être les suivants :

Nettoyer les données et améliorer leur qualité
Transformer les données en les agrégeant à des ensembles de données internes et en appliquant des règles commerciales spécifiques.
Les formater pour l'analyse des séries temporelles ou préparer les données pour le développement ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Start your free trial

Guide d'étude Azure AI Engineer Associate (AI-102)

Renaldi Gondosubroto

DevOps Simplified: Zero-Maintenance Strategies for AWS EKS: Efficient Deployment and Management Strategies for AWS EKS Environments with Terraform

Dmytro Kozhevin

Practical GitOps: Infrastructure Management Using Terraform, AWS, and GitHub Actions

Rohit Salecha

Building and Delivering Microservices on AWS

Amar Deep Singh

Publisher Resources

ISBN: 9798341667693