Capítulo 5. Preparación de datos y características

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Los algoritmos de aprendizaje automático son tan buenos como sus datos de entrenamiento. Obtener buenos datos para el entrenamiento implica preparar los datos y las características.

La preparación de datos es el proceso de obtener los datos y asegurarse de que son válidos. Se trata de un proceso de varios pasos1 que puede incluir la recopilación de datos, el aumento, el cálculo de estadísticas, la validación de esquemas, la poda de valores atípicos y diversas técnicas de validación. No disponer de datos suficientes puede dar lugar a un ajuste excesivo, a la omisión de correlaciones significativas, etc. Esforzarse por recopilar más registros e información sobre cada muestra de durante la preparación de los datos puede mejorar considerablemente el modelo.2

La preparación de características (a veces llamada ingeniería de características) se refiere a transformar los datos de entrada sin procesar en características que pueda utilizar el modelo de aprendizaje automático.3 Una mala preparación de las características puede hacer que se pierdan relaciones importantes, como un modelo lineal con términos no lineales no expandidos, o un modelo de aprendizaje profundo con unaorientación de imagen incoherente.

Pequeños cambios en la preparación de los datos y las características pueden dar lugar a resultados del modelo muy diferentes. ...

Get Kubeflow para el aprendizaje automático now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.