Capítulo 5. Manejo de datos categóricos
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
5.0 Introducción
A menudo resulta útil medir los objetos no en función de su cantidad, sino de alguna cualidad. A menudo representamos la información cualitativa en categorías como sexo, colores o marca de coche. Sin embargo, no todos los datos categóricos son iguales. Los conjuntos de categorías sin orden intrínseco se denominan nominales. Algunos ejemplos de categorías nominales son
-
Azul, Rojo, Verde
-
Hombre, Mujer
-
Plátano, Fresa, Manzana
En cambio, cuando un conjunto de categorías tiene alguna ordenación natural nos referimos a él como ordinal. Por ejemplo:
-
Bajo, Medio, Alto
-
Joven, viejo
-
De acuerdo, Neutral, En desacuerdo
Además, la información categórica suele representarse en los datos como un vector o columna de cadenas (por ejemplo, "Maine", "Texas", "Delaware"). El problema es que la mayoría de los algoritmos de aprendizaje automático requieren que las entradas sean valores numéricos.
El algoritmo k-próximos más cercanos es un ejemplo de algoritmo que requiere datos numéricos. Un paso del algoritmo consiste en calcular las distancias entre las observaciones, a menudo utilizando la distancia euclídea :
donde y son dos observaciones y el subíndice denota el valor de las observacionesde las observaciones. Sin embargo, el cálculo de la distancia es obviamente imposible ...