Capítulo 7. Reducción de la dimensionalidad
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
Muchos problemas de aprendizaje automático de implican miles o incluso millones de características para cada instancia de entrenamiento. Todas estas características no sólo hacen que el entrenamiento sea extremadamente lento, sino que también pueden hacer que sea mucho más difícil encontrar una buena solución, como verás. Este problema se conoce a menudo como la maldición de la dimensionalidad.
Afortunadamente, en los problemas del mundo real, a menudo es posible reducir considerablemente el número de características, convirtiendo un problema intratable en uno manejable. Por ejemplo, considera las imágenes MNIST (introducidas en el Capítulo 3): los píxeles de los bordes de la imagen son casi siempre blancos, por lo que podrías eliminar completamente estos píxeles del conjunto de entrenamiento sin perder mucha información. Como vimos en el capítulo anterior, la Figura 6-6 confirma que estos píxeles carecen totalmente de importancia para la tarea de clasificación. Además, dos píxeles vecinos suelen estar muy correlacionados: si los fusionas en un solo píxel (por ejemplo, tomando la media de las intensidades de los dos píxeles), no perderás mucha información, eliminando la redundancia y, a veces, incluso el ruido.
Advertencia
La reducción de la dimensionalidad también puede eliminar información útil, igual que comprimir una ...