Capítulo 9. Profundización en el modelado tabular
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
El modelado tabular toma los datos en forma de tabla (como una hoja de cálculoo CSV). El objetivo es predecir el valor de una columna basándose en los valores de las demás columnas. En este capítulo, examinaremos no sólo el aprendizaje profundo, sino también técnicas más generales de aprendizaje automático, como los bosques aleatorios, ya que pueden dar mejores resultados en función de tu problema.
Veremos cómo debemos preprocesar y limpiar los datos y cómo interpretar el resultado de nuestros modelos después del entrenamiento, pero primero veremos cómo podemos introducir columnas que contengan categorías en un modelo que espera números utilizando incrustaciones.
Incrustaciones categóricas
En los datos tabulares, algunas columnas pueden contener datos numéricos, como "edad", mientras queotras contienen valores de cadena, como "sexo". Los datos numéricos pueden introducirse directamente en el modelo (con algún preprocesamiento opcional), pero las otras columnas deben convertirse en números. Como los valores de éstas corresponden a diferentes categorías, a menudo llamamos variables categóricas a este tipo de variables. Las del primer tipo se denominanvariables continuas.
Jerga: Variables continuas y categóricas
Las variables continuas son datos numéricos, como "edad", que pueden introducirse directamente en el modelo, ...