Chapitre 12. Automatisation des pipelinesde données avec Apache Airflow
Cet ouvrage a été traduit à l'aide de l'IA. Tes réactions et tes commentaires sont les bienvenus : translation-feedback@oreilly.com
Même les modèles AutoML les plus sophistiqués ne sont efficaces que dans la mesure où le sont les pipelines de données qui les alimentent. J’ai acquis une expérience directe dans ce domaine lors d’un projet d’analyse de données de santé, où notre système AutoML a systématiquement produit des résultats exceptionnels en phase de développement, atteignant une précision de 87 % pour les trois premiers résultats dans les prédictions de codes CIM sur un sous-ensemble de 150 codes de diagnostic courants. Cependant, lors du déploiement en production, les performances ont chuté à à peine 72 % dès le premier mois. Le coupable n'était pas du tout le modèle. Notre pipeline de données, construit à partir de scripts planifiés et d'interventions manuelles, fournissait des données obsolètes, omettait des mises à jour critiques et dupliquait parfois des enregistrements. Le système AutoML faisait exactement ce pour quoi il avait été conçu — trouver des modèles dans les données — mais les données elles-mêmes étaient fondamentalement peu fiables.
Remarque
La CIM-10 contient plus de 70 000 codes, ce qui rend la prédiction complète des codes extrêmement difficile. Les systèmes de production se concentrent généralement sur la précision « top-N » pour les codes les plus courants pertinents pour leur ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access