Capítulo 5. Detección de anomalías con agrupación de K-means

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

La clasificación y la regresión son técnicas potentes y bien estudiadas en el aprendizaje automático. El Capítulo 4 demostró el uso de un clasificador como predictor de valores desconocidos. Pero había una trampa: para predecir valores desconocidos de datos nuevos, teníamos que conocer los valores objetivo de muchos ejemplos vistos anteriormente. Los clasificadores sólo pueden ayudar si nosotros, los científicos de datos, sabemos lo que buscamos y podemos proporcionar muchos ejemplos en los que la entrada produjo una salida conocida. Se conocen colectivamente como técnicas de aprendizaje supervisado, porque su proceso de aprendizaje recibe el valor de salida correcto para cada ejemplo de la entrada.

Sin embargo, a veces la salida correcta es desconocida para algunos o todos los ejemplos. Considera el problema de dividir a los clientes de un sitio de comercio electrónico según sus hábitos de compra y sus gustos. Las características de entrada son sus compras, clics, información demográfica, etc. La salida deben ser agrupaciones de clientes: quizá un grupo represente a compradores preocupados por la moda, otro resulte corresponder a cazadores de gangas sensibles al precio, etc.

Si se te pidiera que determinaras esta etiqueta objetivo para cada nuevo cliente, te encontrarías rápidamente con un problema al ...

Get Analítica avanzada con PySpark now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.