Capítulo 8. Selección de rasgos
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
Utilizamos la selección de rasgos para seleccionar rasgos que sean útiles para el modelo. Las características irrelevantes pueden tener un efecto negativo en un modelo. Las características correlacionadas pueden hacer que los coeficientes en la regresión (o la importancia de las características en los modelos de árbol) sean inestables o difíciles de interpretar.
La maldición de la dimensionalidad es otra cuestión a tener en cuenta. A medida que aumentas el número de dimensiones de tus datos, éstos se vuelven más escasos. Esto puede dificultar la extracción de una señal a menos que dispongas de más datos. Los cálculos de vecindad tienden a perder su utilidad a medida que se añaden más dimensiones.
Además, el tiempo de entrenamiento suele ser una función del número de columnas (y a veces es peor que lineal). Si puedes ser conciso y preciso con tus columnas, puedes tener un modelo mejor en menos tiempo. Vamos a ver algunos ejemplos utilizando el conjunto de datos agg_df
del último capítulo. Recuerda que se trata del conjunto de datos del Titanic con algunas columnas adicionales para la información de los camarotes. Como este conjunto de datos está agregando valores numéricos para cada camarote, mostrará muchas correlaciones. Otras opciones son el PCA y mirar el .feature_importances_
de un clasificador en árbol.
Columnas colineales
Get Referencia de bolsillo sobre aprendizaje automático now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.