Capítulo 29. Aprendizaje no supervisado

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Este capítulo de cubrirá los detalles de las herramientas disponibles en Spark para el aprendizaje no supervisado, centrándose específicamente en la agrupación. En general, el aprendizaje no supervisado se utiliza menos que el supervisado porque suele ser más difícil de aplicar y medir el éxito (desde la perspectiva del resultado final). Estos retos de pueden agravarse a escala. Por ejemplo, la agrupación en un espacio de alta dimensión puede crear agrupaciones extrañas simplemente debido a las propiedades de los espacios de alta dimensión, algo que se conoce como la maldición de la dimensionalidad. La maldición de la dimensionalidad describe el hecho de que a medida que un espacio de características aumenta en dimensionalidad, se vuelve cada vez más escaso. Esto significa que los datos necesarios para llenar este espacio y obtener resultados estadísticamente significativos aumentan rápidamente con cualquier incremento de la dimensionalidad. Además, con las dimensiones altas aumenta el ruido en los datos. Esto, a su vez, puede hacer que tu modelo se centre en el ruido en lugar de en los verdaderos factores causantes de un resultado o agrupación concretos. Por eso, en la tabla de escalabilidad del modelo, incluimos límites computacionales, así como un conjunto de recomendaciones estadísticas. Se trata de heurísticas y deben ...

Get Spark: La Guía Definitiva now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.