Capítulo 4. Trabajar con datos
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
Con frecuencia, estamos ansiosos por construir, entrenar y utilizar modelos de aprendizaje automático (ML), y nos resulta emocionante implementarlos para determinar qué funciona y qué no. El resultado es inmediato, y la recompensa es satisfactoria. Lo que a menudo se ignora o no se discute lo suficiente es el preprocesamiento de los datos. En este capítulo, exploraremos varios tipos de datos, profundizando en la importancia del preprocesamiento de datos y la ingeniería de características, así como en sus técnicas asociadas y buenas prácticas. También trataremos el concepto de sesgo en los datos. El capítulo concluirá con una explicación de la canalización del análisis predictivo y algunas buenas prácticas en torno a la selección y el trabajo con modelos de ML.
Comprender los datos
Tradicionalmente, las empresas almacenan los datos en bases de datos y archivos planos, por lo que empezaremos el capítulo explorando los fundamentos de una base de datos relacional tradicional.
Una base de datos relacional almacena los datos en una o varias tablas. Las tablas tienen filas que representan registros de datos y columnas que representan características individuales. Con una base de datos de clientes, por ejemplo, cada fila podría representar a un cliente diferente, y podrías tener columnas para el ID_cliente, el nombre y el número de teléfono. ...