Capítulo 18. Agrupación

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

La agrupación es una técnica de aprendizaje automático no supervisado que se utiliza para dividir un grupo en cohortes. Es no supervisada porque no damos al modelo ninguna etiqueta; sólo inspecciona las características y determina qué muestras son similares y pertenecen a un grupo. En este capítulo veremos los métodos de agrupación jerárquica y de K-means. También exploraremos de nuevo el conjunto de datos Titanic utilizando diversas técnicas.

K-Means

El algoritmo K-means requiere que el usuario elija el número de conglomerados o "k". A continuación, elige aleatoriamente k centroides y asigna cada muestra a un clúster en función de una métrica de distancia al centroide. Tras la asignación, vuelve a calcular los centroides basándose en el centro de cada muestra asignada a una etiqueta. A continuación, repite la asignación de muestras a conglomerados basándose en los nuevos centroides. Tras unas cuantas iteraciones, debería converger.

Como la agrupación utiliza métricas de distancia para determinar qué muestras son similares, el comportamiento puede cambiar en función de la escala de los datos. Puedes normalizar los datos y poner todas las características en la misma escala. Algunos han sugerido que una PYME podría desaconsejar la normalización si la escala insinúa que algunas características tienen más importancia. En este ejemplo normalizaremos ...

Get Referencia de bolsillo sobre aprendizaje automático now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.