book

Apprendre AutoML (French Edition)

Name: Apprendre AutoML (French Edition)
Author: Kerem Tomak
ISBN: 0642572369316

by Kerem Tomak

April 2026

Intermediate

586 pages

17h 40m

French

O'Reilly Media, Inc.

Read now

Unlock full access

Avant-propos de Thomas H. Davenport
Avant-propos de Gregory Wheeler
Avant-propos
Pourquoi j'ai écrit ce livreÀ qui s'adresse ce livreComment ce livre est organiséPartie I : Les fondements de l'AutoMLPartie II : Techniques fondamentales de l'AutoMLPartie III : L'AutoML pour différents types de donnéesPartie IV : Production et MLOpsPartie V : Études de casStratégies de lecture pour différents objectifsApproche d'apprentissage pratiqueConventions utilisées dans ce livreUtilisation des exemples de codeO’Reilly Online LearningComment nous contacterRemerciements
I. Les bases de l'AutoML
1. Qu'est-ce que l'apprentissage automatique ?
La demande croissante en solutions d'apprentissage automatiqueCombler le déficit de talents en science des donnéesDémocratiser le développement de l'IAL'AutoML dans le paysage du machine learningBibliothèques AutoML open sourcePlateformes AutoML d'entrepriseComparaison des principaux frameworksQui devrait utiliser l'AutoML ?L'AutoML dans tous les secteurs : transformer les processus métierFinanceSanté et sciences de la vieCommerce de détail et e-commerceIndustrieAutres secteursLe modèle de cas d'utilisation à plusieurs niveauxSurmonter les obstacles : les défis persistants de l'AutoMLInterprétabilité (le problème de la « boîte noire »)Besoin de personnalisation contre automatisationDépendance à la qualité des données et robustesseCoûts de calcul et intensité en ressourcesLutter contre les biais et garantir l'équitéÉvolutivité et efficacitéL'horizon : les tendances futures qui façonnent l'AutoMLSynergie avec les grands modèles linguistiques (LLMs) et les modèles de baseRecherche d'architecture neuronale (NAS) de nouvelle générationMaturité de l'IA multimodale explicable (MXAI)Poursuite de la démocratisation via le low-code/no-codeExpansion vers l'Edge Computing et l'apprentissage fédéréRésumé
2. L'essor et l'état actuel de l'AutoML
Les débuts de l'automatisation (avant 2010) : poser les basesSélection des caractéristiquesRecherche d'hyperparamètresRecherche sur le méta-apprentissageLimites des premières approchesPremière génération (2010-2015) : résoudre le problème CASHAuto-WEKA (2013)Hyperopt (2013)SMAC (Configuration d'algorithmes séquentielle basée sur des modèles)Impact et héritage de la première générationDeuxième génération (2015-2020) : résoudre les problèmes d'ergonomie et d'entrepriseAuto-sklearn (2015)PyCaret (2020)TPOT (Tree-Based Pipeline Optimization Tool) (2016)H2O AutoMLGoogle Cloud AutoML (qui fait désormais partie de Vertex AI)Impact et héritage de la deuxième générationTroisième génération (2020–aujourd’hui) : résoudre les problèmes de multimodalité et de MLOpsAutoGluon (Amazon)Google Vertex AIMLJAR et AWS SageMaker AutopilotCapacités clés de la troisième générationL'émergence de l'AutoML assisté par les LLMRésumé
3. Comprendre le pipeline AutoML
L'architecture de l'apprentissage automatiquePrétraitement des donnéesÉvaluation et nettoyage de la qualité des donnéesStratégies pour les données manquantesValidation des données et contrôles d'intégritéIngénierie des caractéristiquesGénération de caractéristiques à plusieurs niveauxIngénierie des caractéristiques spécifiques au domaineSélection et élagage des caractéristiquesIntégration de l'apprentissage de la représentationOptimisation des hyperparamètresStratégies de recherche avancéesOptimisation multifidélitéConception de l'espace de configurationOptimisation tenant compte du budgetRecherche d'architecture neuronaleIngénierie de l'espace de rechercheTechniques d'efficacitéRecherche d'architecture tenant compte du matérielTransfert d'architecture et méta-apprentissageSélection, assemblage et empilement de modèlesConstruction d'ensembles axée sur la diversitéTechniques avancées d'empilementSélection dynamique d'ensemblesOptimisation d'ensembles tenant compte des ressourcesDéploiement et surveillance des modèlesConsidérations relatives à la mise en productionÉvolutivité et optimisation des performancesSurveillance et maintenance des modèlesInterprétabilité et explicabilitéIntégration et optimisation des pipelinesStratégies d'optimisation inter-étapesAllocation et gestion des ressourcesMécanismes de rétroaction et apprentissage continuDéfis et perspectives d'avenirÉvolutivité et efficacitéRobustesse et fiabilitéDémocratisation et accessibilitéLa démocratisation, une arme à double tranchantRésumé
II. Techniques fondamentales de l'AutoML
4. Prétraitement automatisé des données et ingénierie des caractéristiques
Ensemble de données : plateforme de commerce électronique RetailMartProfilage intelligent des données et évaluation de la qualitéGestion et transformation intelligentes des types de donnéesExtraction de caractéristiques DateTimePipelines de prétraitement de texteIngénierie automatisée des caractéristiquesAutomatisation de l'ingénierie des caractéristiques traditionnelleTechniques avancées d'apprentissage des caractéristiquesSélection intelligente des caractéristiques et gestion de la dimensionnalitéPrétraitement de données complexes et multimodalesPipelines de prétraitement prêts pour la productionRésumé
5. Optimisation des hyperparamètres
Le défi de l'optimisation des hyperparamètresLe défi du coût de calculLe problème de la sensibilitéImpact sur le monde réelRecherche par grille contre recherche aléatoire : poser les basesRecherche par grille : systématique mais limitéeRecherche aléatoire : une alternative étonnamment efficaceUne comparaison pratiqueMise en œuvre moderneQuand utiliser chaque approcheLimites des deux approchesOptimisation bayésienne : apprendre de l'expérienceL'idée centraleModèles de substitutionFonctions d'acquisitionExemples de réussite concretsOutils modernes et mise en œuvreRéglage automatique des modèles avec AWS SageMakerTechniques avancéesConsidérations pratiquesLimites et défisArrêt précoce et planification : travailler plus intelligemment, pas plus durL'idée centraleRéduction successive par moitié : une approche par tournoiHyperband : automatisation de l'allocation des ressourcesRéduction successive asynchrone (ASHA)Apprentissage basé sur la population : évolution pendant l'apprentissageGel des couches : une nouvelle dimension de fidélitéMise en œuvre pratiqueRésultats concretsCombinaison avec l'optimisation bayésienneQuand l'arrêt précoce fonctionne le mieuxUne mise en gardeOptimisation multifidélité : au-delà de l'arrêt précoce simpleLe paradigme de la multifidélitéMéthodes avancées de multifidélitéMise en œuvre pratiqueÉtude de cas : optimisation d'un portefeuille d'investissement personnel avec l'HPO multifidélitéContexte et définition du problèmeEnsemble de données et caractéristiquesMise en œuvre de la stratégie de multifidélitéMise en œuvreGestion des ressources et résultatsPrincipaux enseignements et considérations pratiquesEfficacité de l'arrêt anticipéModèles de performance par type de modèleStratégie d'allocation des ressourcesConsidérations relatives au déploiement en productionLeçons pour les professionnelsQuand utiliser l'optimisation multifidélitéRésumé

6. Recherche d'architecture neuronale (NAS)
Comprendre la recherche d'architecture neuronaleLes trois piliers de la NASConception de l'espace de recherche : définir les limitesL'art de la contrainteTypes d'espaces de rechercheConsidérations spécifiques aux tâchesEspaces de recherche spécialisés émergentsEspaces de recherche multi-objectifsÉquilibre entre efficacité et découverteLa révolution NAS-BenchStratégies de recherche : trouver une aiguille dans une botte de foinL'évolution des stratégies de rechercheChoisir ta stratégie de recherche : une perspective pratiqueL'apprentissage par renforcement : l'approche originaleAlgorithmes évolutifs : la recherche inspirée de la natureNAS différentiable : le changement radicalMéthodes basées sur les gradients et techniques avancéesApproches hybrides : le meilleur des deux mondesChoisir la bonne stratégieEstimation des performances : l'impératif d'efficacitéCombler le fossé de l'évaluationLe goulot d'étranglement de l'entraînementÉvaluation multifidélité : moins d'entraînement, plus d'apprentissageRecherche d'architecture en une seule fois : s'entraîner une fois, évaluer plusieurs foisExtrapolation de la courbe d'apprentissageProxies à coût nul : évaluation instantanée de l'architectureModèles de substitution : apprendre à prédire les performancesCombiner les approches pour une efficacité maximaleNAS efficace : la mise en pratiqueLa révolution de l'efficacitéConstruire des systèmes NAS prêts pour la productionPartage des poids : le fondement d'un NAS efficaceRéseaux « Once-For-All » : dissocier l'entraînement et le déploiementStratégies de recherche progressiveOptimisation tenant compte du matérielOutils de déploiement en production pour les architectures NAS-DiscoveredProxys sans coût pour un filtrage rapideConseils pratiques de mise en œuvreApplications pratiques et outilsLe NAS dans le monde réel : intégration et déploiementAutoKeras : la simplicité avant toutNNI : NAS de niveau entrepriseRay Tune + Optuna : flexible et puissantTémoignages de réussite dans l'industrieDu notebook à la production : prochaines étapesRésumé
III. L'AutoML pour différents types de données
7. AutoGluon pour les données tabulaires
Configuration d'AutoGluon et de l'environnementOptions d'installationRemarques spécifiques à la plateformeConfigurer ton environnement de développementConsidérations relatives aux performancesRecommandations pour l'environnement cloudChoisir le bon framework AutoML pour les données tabulairesLes bases de TabularPredictorChargement et exploration des donnéesFormation de base sur les modèlesComprendre les résultats de TabularPredictorDifférentes méthodes de prédictionClassification binaire et multiclassesLa classification binaire en détailClassification multiclassesTâches de régressionDifférences entre la régression et la classificationInterpréter les performances de régressionPersonnalisation du comportement de baseTraitement automatique des données par AutoGluonDétection automatique du type de caractéristiqueGestion des valeurs manquantesCodage catégorielPersonnalisation avancéeHyperparamètres personnalisésConfiguration avancée de l'ensembleContrôle de l'ingénierie des caractéristiquesOptimisation du processus d'entraînementInterprétabilité et débogage des modèlesOutils d'interprétabilitéGestion des scénarios de données particuliersQuand utiliser la personnalisation avancéeProjet : Prédiction de survie sur le TitanicAperçu du projet et contexte métierExploration et compréhension des donnéesModèle AutoGluon de référenceIngénierie des caractéristiques personnalisées pour le TitanicInterprétation du modèle pour TitanicÉvaluation et comparaison des performancesPréparation du déploiement du modèleRésumé du projet et impact commercialPoursuite de ce projetCohérence du pipeline de donnéesSurveillance et maintenance des modèles en productionPratiques de surveillanceOutils de surveillance pour AutoGluonRésumé
8. AutoML pour le traitement du texte et du langage naturel
MultiModalPredictor d'AutoGluon pour le traitement de textePourquoi MultiModalPredictor ?Architectures des modèles sous-jacentsPerformances en conditions réellesCréation de modèles de classification de texteTon premier modèle de classification de texteComprendre la sélection des modèlesConseils pour l'optimisation des hyperparamètresFonctionnalités avancées de traitement de texteAu-delà de la classification : tâches avancées en TALNLa révolution des transformateurs et au-delàConsidérations spécifiques au domaineSélection de modèles pour différents cas d'utilisationApplications à précision maximaleApplications équilibréesApplications à haut débitApplications concrètes et performancesÉtudes de cas dans l'industrieAperçu des performancesConsidérations relatives au déploiement en productionSélection de modèles pour les scénarios de déploiementServices gérés ou modèles personnalisésDéploiement de modèles personnalisés avec SageMakerSurveillance et maintenanceSurveillance des performances et des opérationsDétection de la dérive des donnéesRéentraînement et amélioration continueProjet pratique : classification d'articles d'actualitéRésumé
9. Prévision de séries chronologiques avec AutoGluon
Comprendre le défi des séries chronologiquesPremiers pas avec TimeSeriesPredictorModèles de base et prévisions « zero-shot »L'architecture Chronos-BoltImpact concret des prévisions « zero-shot »Gérer des scénarios complexes à séries multiplesFonctionnalités avancées : régresseurs de covariablesMise en œuvre des régresseurs covariablesImpact commercial de l'intégration des covariablesSélection de modèles et optimisation des hyperparamètresLe « Model Zoo »Configurations prédéfiniesConfiguration personnalisée des hyperparamètresStratégies d'évaluation et de validationBacktesting et validation tenant compte du tempsIndicateurs pertinents pour l'entrepriseDéploiement en production et intégration dans le CloudOptions de déploiement AWSMise à jour et surveillance des modèlesProjet pratique : prévision de la demande dans le commerce de détailPréparation et exploration des donnéesEntraînement des modèles avec des fonctionnalités avancéesAnalyse de l'impact sur l'activitéPerspectives d'avenir et nouvelles fonctionnalitésRésumé
10. Vision par ordinateur avec AutoGluon
Comprendre les capacités de vision par ordinateur d'AutoGluonChoisir entre des modèles personnalisés et des services gérésCréation d'ensembles de données d'entraînement avec SageMaker Ground TruthL'avantage de MultiModalPredictorIntégration des modèles de baseArchitectures modernes de vision par ordinateurCatégories de tâches et applicationsConfigurer AutoGluon pour la vision par ordinateurInstallation et configuration de l'environnementConsidérations matériellesVérification et configuration de baseClassification d'images avec MultiModalPredictorTon premier modèle de classification d'imagesComprendre les formats de données et le prétraitementSélection de l'architecture du modèle et préréglagesTechniques de classification avancéesDétection d'objets avec AutoGluonComprendre la détection d'objetsConfiguration de base de la détection d'objetsFonctionnalités avancées de détection d'objetsApplications avancées de la détection d'objetsApplications de vision par ordinateur multimodaleCombiner des images avec des données tabulairesIntégration d'images et de texteProjet de vision par ordinateur en situation réelle : classification automatisée des produits pour le commerce électroniqueProjet : classification automatisée des produits pour le commerce électroniquePréparation et exploration des donnéesMise en place du système de classification multimodaleAnalyse des performances et interprétabilité du modèleIntégration avec les systèmes de commerce électroniqueOptimisation des performances et bonnes pratiquesStratégies d'optimisation matérielleSurveillance et maintenance du modèleConsidérations relatives au déploiement en productionGestion des versions et mises à jour du modèleDéploiement de SageMaker EndpointInférence sans serveur SageMaker pour un déploiement économiqueAWS Panorama pour le déploiement en périphérieService de traitement par lots évolutifRésumé
IV. Production et MLOps
11. Intégration des workflows avec les outils MLOps
Comprendre le paysage de l'intégration AutoML-MLOpsLe défi de l'évolutivitéL'impératif de reproductibilitéSuivi des expériences et gestion des modèlesOrganisation hiérarchique des expériencesStratégies de gestion des artefactsOrchestration des workflows avec KubeflowConception de pipelines compatibles avec l'AutoMLGestion et optimisation des ressourcesModèles de déploiement en productionValidation automatisée et assurance qualitéInfrastructure de diffusion dynamiqueSurveillance opérationnelle et maintenanceSurveillance et gouvernanceExigences de surveillance spécifiques à l'AutoMLCadres de gouvernance et de conformitéDéfis et solutions d'intégrationLe défi de l'explosion des artefactsGarantir la reproductibilité dans les systèmes automatisésFaire le lien entre les domaines techniques et métierMeilleures pratiques et directives de mise en œuvreDévelopper des capacités progressivesAlignement et gestion des attentesGestion des risques et systèmes parallèlesL'observabilité comme fondementApprentissage et adaptation organisationnelsRésumé
12. Automatisation des pipelines de données avec Apache Airflow
Comprendre les exigences en matière de pipeline de données pour l'AutoMLArchitecture Airflow pour les workflows de machine learningComposants essentielsTerminologie clé d'AirflowConception de DAG pour l'ingestion de données AutoMLExemple pratique : DAG complet d'ingestion de données AutoMLInitialisation et configuration du DAGComprendre le comportement de rattrapageMappage dynamique des tâches pour le traitement parallèlePipelines d'ingénierie des caractéristiques et magasins de caractéristiquesGestion des données arrivant en retardContrats de données et évolution des schémasContrôles de surveillance et de qualité des donnéesMise à l'échelle d'Airflow pour l'AutoML d'entrepriseExcellence opérationnelle et bonnes pratiquesRésumé
13. Déploiement et livraison continue pour l'AutoML
Les défis spécifiques du déploiement de l'AutoMLIntégration continue pour le machine learningValidation du déploiement fantômePipelines de déploiement continuStratégies de test pour les modèles automatisésTests de contratTests basés sur les propriétésTests métamorphiquesTests adversairesEmpaquetage et conteneurisation des modèlesExemple pratique : déploiement du modèle de prédiction des revenus des adultesInfrastructure de mise en service des modèlesSurveillance et observabilité en productionPile de surveillance Prometheus–GrafanaDétection des dérives avec EvidentlyConsidérations relatives à la sécurité et à la conformitéNettoyage des entrées et prévention des attaques par déni de serviceDéfenses contre les attaques adversairesApprentissage continu et boucles de rétroactionRésumé
V. Études de cas
14. Étude de cas n° 1 : Services financiers — Détection des fraudes en temps réel chez GlobalBank
Problématique métier et contexteCritères de réussitePipeline et préparation des donnéesArchitecture du pipeline de donnéesConsidérations relatives au pipeline de données en productionIngénierie des caractéristiques1. Caractéristiques temporelles : la fraude suit un calendrier2. Caractéristiques de vitesse : les fraudeurs agissent vite3. Écarts comportementaux : détecter ce qui sort de l'ordinaire4. Notation du risque des commerçants5. Fiabilité des appareilsRésumé de l'impact des caractéristiquesDéveloppement de modèles avec AutoGluonPondération des échantillons pour l'apprentissage sensible au coûtConfiguration d'AutoGluonPourquoi PR-AUC plutôt que ROC-AUC ?Résultats de l'entraînement du modèleÉvaluation et interprétabilité du modèleDétermination du seuil optimalInterprétabilité du modèle avec SHAPArchitecture de déploiementService d'inférence FastAPIStratégie de dégradation gracieuseSurveillance et maintenanceDétection de dérive avec PSIPipeline de réentraînement automatiséTests A/B pour les mises à jour de modèlesRésultats et enseignements tirésIndicateurs de performanceImpact sur l'activitéPrincipaux enseignementsLa bonne répartition des tâchesRésumé
15. Étude de cas n° 2 : Commerce de détail — Prévision de la demande omnicanale
Problématique métier et contexteLe défi de l'évolutivitéLe signal d'alarmeObjectifs du projetDéfis liés aux données : intégration multisourceDonnées de point de venteDonnées e-commerceDonnées d'inventaireDonnées marketing et promotionsDonnées météoSignaux externesArchitecture du pipeline de donnéesDécisions clés en matière de donnéesIngénierie des caractéristiques : identification des facteurs de demandeIndicateurs alignés sur l'activitéCaractéristiques temporelles (référence)Caractéristiques comportementales omnicanales (fort impact)Demande liée à la météo (spécifique à chaque catégorie)Caractéristiques promotionnelles (interactions complexes)Demande liée aux événementsAttributs spécifiques aux référencesDéveloppement du modèle : AutoGluon pour les séries chronologiques à grande échelleL'approche AutoMLPourquoi utiliser l'AutoML tabulaire pour les séries chronologiques ?Stratégie d'entraînement : découpages temporelsPrévisions multi-horizonsConfiguration d'AutoGluonDécisions clés de configurationGestion de la rareté des données (SKU à longue traîne)Infrastructure d'entraînementÉvaluation : indicateurs métier plutôt qu'indicateurs de modèlePerformances du modèle (MAPE par horizon de prévision)MAPE moyen pondéré (aligné sur l'activité)Indicateurs d'impact sur l'activitéPerformances par catégoriePrécision des prévisions promotionnellesAnalyse des biais de prévisionDéploiement : pipeline de prévision en productionArchitecture du pipelinePile technologiqueDiffusion des prévisionsSurveillance : garantir la précision des prévisionsDétection des dérivesRésultats commerciaux et leçons apprisesImpact commercial quantifié (12 mois après le lancement)Avantages inattendusFacteurs clés de succèsCe qu’on ferait différemmentLeçons à retenir pour ton projet de prévision de la demandeQuand l'AutoML excelle dans la prévision de la demandeRésumé
16. Étude de cas n° 3 : Santé — Prédiction des réadmissions de patients
Le défi commercialLa contrainte la plus difficile : l'équitéLa situation actuelleObjectifs du projetDéfis liés aux données et conformité HIPAASources de données et intégrationModèles de données manquantesProblèmes de qualité des donnéesIngénierie des caractéristiques : données structurées et non structuréesCatégorie 1 : Données démographiques et déterminants sociaux (42 caractéristiques)Catégorie 2 : Complexité clinique et comorbidités (68 caractéristiques)Catégorie 3 : Antécédents d'utilisation (53 caractéristiques)Catégorie 4 : Caractéristiques de la consultation actuelle (87 caractéristiques)Catégorie 5 : Intégration des notes cliniques (64 caractéristiques)Catégorie 6 : Caractéristiques temporelles et d'interaction (33 caractéristiques)Développement de modèles : AutoML tenant compte de l'équitéLe défi de l'équitéDéfinition des indicateurs d'équitéModèle de référence : AutoGluon standard (sans contraintes d'équité)Approche 1 : Supprimer les attributs protégésApproche 2 : Débiaisage antagonisteApproche 3 (finale) : ensemble tenant compte de l'équité avec repondérationConfiguration finale du modèleÉvaluation : indicateurs de performance et d'équitéPerformances du modèle (globales)Indicateurs d'équité par origine ethniqueÉquité par tranche d'âgeImportance des caractéristiques (Top 20 selon SHAP)Indicateurs commerciauxDéploiement : intégration dans le flux de travail cliniqueArchitecture de prédiction en temps réelIntégration des DME (Epic)Alerte d'aide à la décision cliniqueWorkflow de gestion des soinsFormation des cliniciens et gestion du changementInterprétabilité pour les cliniciensConsidérations réglementairesSurveillance : dérive et équitéStratégie de surveillance à trois niveauxCalendrier de recyclageRésultats commerciaux et leçons apprisesRésultats cliniquesÉquité dans la pratiqueAvantages inattendusFacteurs clés de réussiteCe qu’on ferait différemmentLeçons pour ton projet de réadmissionQuand l'AutoML excelle dans le domaine de la santéLe plan directeur de l'AutoML en production : une grande synthèseLes modèles universels de l'AutoML en productionLa liste de contrôle de préparation à la productionConclusionRésumé
Épilogue : La révolution silencieuse de l'AutoML
La promesse initiale, tenueLes hypothèses sur lesquelles on s'est appuyésLa révolution du modèle de baseDe l'automatisation à l'autonomieÀ quoi ressemble réellement l'AutoML agentiqueLe nouveau déficit de compétencesPourquoi tout ce que tu as appris reste importantLa question de la gouvernance à laquelle personne ne répondLa voie à suivreUn dernier mot
Index
À propos de l'auteur

Content preview from Apprendre AutoML (French Edition)

Chapitre 12. Automatisation des pipelinesde données avec Apache Airflow

Cet ouvrage a été traduit à l'aide de l'IA. Tes réactions et tes commentaires sont les bienvenus : translation-feedback@oreilly.com

Même les modèles AutoML les plus sophistiqués ne sont efficaces que dans la mesure où le sont les pipelines de données qui les alimentent. J’ai acquis une expérience directe dans ce domaine lors d’un projet d’analyse de données de santé, où notre système AutoML a systématiquement produit des résultats exceptionnels en phase de développement, atteignant une précision de 87 % pour les trois premiers résultats dans les prédictions de codes CIM sur un sous-ensemble de 150 codes de diagnostic courants. Cependant, lors du déploiement en production, les performances ont chuté à à peine 72 % dès le premier mois. Le coupable n'était pas du tout le modèle. Notre pipeline de données, construit à partir de scripts planifiés et d'interventions manuelles, fournissait des données obsolètes, omettait des mises à jour critiques et dupliquait parfois des enregistrements. Le système AutoML faisait exactement ce pour quoi il avait été conçu — trouver des modèles dans les données — mais les données elles-mêmes étaient fondamentalement peu fiables.

Remarque

La CIM-10 contient plus de 70 000 codes, ce qui rend la prédiction complète des codes extrêmement difficile. Les systèmes de production se concentrent généralement sur la précision « top-N » pour les codes les plus courants pertinents pour leur ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

What Successful Brick-and-Mortar Retailers Get Right

Publisher Resources

ISBN: 0642572369316

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

Apprendre AutoML (French Edition)

by Kerem Tomak

Chapitre 12. Automatisation des pipelinesde données avec Apache Airflow

Remarque

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.