Capítulo 20. Agrupación

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Donde nosotros tales racimos teníamos

Como nos hizo noblemente salvajes, no locos

Robert Herrick

La mayoría de los algoritmos de este libro son lo que se conoce como algoritmos de aprendizaje supervisado, en el sentido de que empiezan con un conjunto de datos etiquetados y los utilizan como base para hacer predicciones sobre nuevos datos no etiquetados. La agrupación, sin embargo, es un ejemplo de aprendizaje no supervisado, en el que trabajamos con datos completamente sin etiquetar (o en el que nuestros datos tienen etiquetas pero las ignoramos).

La idea

Siempre que observes alguna fuente de datos, es probable que los datos formen de algún modo conglomerados. Un conjunto de datos que muestre dónde viven los millonarios probablemente tenga conglomerados en lugares como Beverly Hills y Manhattan. Un conjunto de datos que muestre cuántas horas trabaja la gente a la semana probablemente tenga un conglomerado en torno a las 40 (y si procede de un estado con leyes que obligan a conceder prestaciones especiales a las personas que trabajan al menos 20 horas a la semana, probablemente tenga otro conglomerado en torno a las 19). Un conjunto de datos demográficos de votantes registrados probablemente forme una variedad de conglomerados (por ejemplo, "madres futbolistas", "jubilados aburridos", "millennials en paro") que los encuestadores y los asesores ...

Get Ciencia de datos desde cero, 2ª edición now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.