Capítulo 5. Manejo de datos categóricos

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

5.0 Introducción

A menudo resulta útil medir los objetos no en función de su cantidad, sino de alguna cualidad. A menudo representamos la información cualitativa en categorías como sexo, colores o marca de coche. Sin embargo, no todos los datos categóricos son iguales. Los conjuntos de categorías sin orden intrínseco se denominan nominales. Algunos ejemplos de categorías nominales son

  • Azul, Rojo, Verde

  • Hombre, Mujer

  • Plátano, Fresa, Manzana

En cambio, cuando un conjunto de categorías tiene alguna ordenación natural nos referimos a él como ordinal. Por ejemplo:

  • Bajo, Medio, Alto

  • Joven, viejo

  • De acuerdo, Neutral, En desacuerdo

Además, la información categórica suele representarse en los datos como un vector o columna de cadenas (por ejemplo, "Maine", "Texas", "Delaware"). El problema es que la mayoría de los algoritmos de aprendizaje automático requieren que las entradas sean valores numéricos.

El algoritmo k-próximos más cercanos es un ejemplo de algoritmo que requiere datos numéricos. Un paso del algoritmo consiste en calcular las distancias entre las observaciones, a menudo utilizando la distancia euclídea :

i=1 n (x i -y i ) 2

donde x y y son dos observaciones y el subíndice i denota el valor de las observacioneside las observaciones. Sin embargo, el cálculo de la distancia es obviamente imposible ...

Get Recetario de Aprendizaje Automático con Python, 2ª Edición now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.