Chapitre 29. Apprentissage non supervisé
Cet ouvrage a été traduit à l'aide de l'IA. Tes réactions et tes commentaires sont les bienvenus : translation-feedback@oreilly.com
Ce chapitre abordera les détails des outils disponibles dans Spark pour l'apprentissage non supervisé, en se concentrant plus particulièrement sur le clustering. L'apprentissage non supervisé est, de manière générale, moins souvent utilisé que l'apprentissage supervisé parce qu'il est habituellement plus difficile à appliquer et à mesurer le succès (du point de vue du résultat final). Ces défis peuvent être exacerbés à grande échelle. Par exemple, le regroupement dans un espace à haute dimension peut créer des regroupements bizarres simplement en raison des propriétés des espaces à haute dimension, ce que l'on appelle la malédiction de la dimensionnalité. La malédiction de la dimensionnalité décrit le fait qu'au fur et à mesure qu'un espace de caractéristiques s'étend en dimensionnalité, il devient de plus en plus clairsemé. Cela signifie que les données nécessaires pour remplir cet espace afin d'obtenir des résultats statistiquement significatifs augmentent rapidement avec toute augmentation de la dimensionnalité. En outre, les dimensions élevées s'accompagnent d'une augmentation du bruit dans les données. Ceci, à son tour, peut amener ton modèle à se concentrer sur le bruit plutôt que sur les véritables facteurs à l'origine d'un résultat ou d'un groupe particulier. C'est pourquoi le tableau d'extensibilité ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access