Systèmes de production à apprentissage automatique
by Robert Crowe, Hannes Hapke, Emily Caveness, Di Zhu
Chapitre 2. Collecte, étiquetage et validation des données
Cet ouvrage a été traduit à l'aide de l'IA. Tes réactions et tes commentaires sont les bienvenus : translation-feedback@oreilly.com
Dans les environnements de production, on découvre des choses intéressantes sur l'importance des données. Nous avons posé la question à des praticiens de la ML chez Uber et Gojek, deux entreprises où les données et la ML sont essentielles à la mission. Voici ce qu'ils avaient à dire :
Les données sont la partie la plus difficile de la ML et la pièce la plus importante à obtenir... Les données cassées sont la cause la plus fréquente de problèmes dans les systèmes de ML en production.
Praticien ML chez Uber
Aucune autre activité du cycle de vie de l'apprentissage automatique n'a un retour sur investissement plus élevé que l'amélioration des données auxquelles un modèle a accès.
Praticien ML chez Gojek
En réalité, si tu demandes à n'importe quel membre de l'équipe de production de ML quelle est l'importance des données, tu obtiendras une réponse similaire. C'est pourquoi nous parlons des données : elles sont incroyablement importantes pour réussir, et les problèmes liés aux données dans les environnements de production sont très différents de ceux de l'environnement universitaire ou de recherche que tu connais peut-être.
Bon, maintenant que nous avons fait le tour de la question, plongeons dans le vif du sujet !
Considérations importantes pour la collecte des données
Dans la conception des ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access