book

Referencia de bolsillo sobre aprendizaje automático

by Matt Harrison

October 2024

Intermediate to advanced

320 pages

5h 2m

Spanish

O'Reilly Media, Inc.

Book available

Read now

Unlock full access

Qué esperarA quién va dirigido este libroConvenciones utilizadas en este libroUtilizar ejemplos de códigoAprendizaje en línea O'ReillyCómo contactar con nosotrosAgradecimientos
Bibliotecas utilizadasInstalación con PipInstalación con Conda
Sugerencia de diseño del proyectoImportacionesHaz una preguntaTérminos para los datosRecopilar datosDatos limpiosCrear funcionesMuestra de datosImputar datosNormalizar datosRefactorizaModelo de referenciaVarias familiasApilandoCrear modeloEvaluar el modeloOptimizar el modeloMatriz de confusiónCurva ROCCurva de aprendizajeModelo de Implementación
Examinar los datos que faltanEliminar los datos que faltanImputar datosAñadir columnas indicadoras
Nombres de columnasSustitución de valores perdidos
Tamaño de los datosEstadísticas resumidasHistogramaGráfico de dispersiónParcela conjuntaRejilla de paresParcelas de Caja y ViolínComparar dos valores ordinalesCorrelaciónRadVizCoordenadas paralelas
NormalizaEscala a RangoVariables ficticiasCodificador de etiquetasCodificación de frecuenciasExtraer categorías de cadenasOtra codificación categóricaFecha Característica IngenieríaAñadir función col_naIngeniería de rasgos manual
Columnas colinealesRegresión LassoEliminación recursiva de rasgosInformación mutuaAnálisis de Componentes PrincipalesFunción Importancia
Utiliza una métrica diferenteAlgoritmos basados en árboles y conjuntosPenalizar ModelosSobremuestreo MinoríaGenerar datos de minoríasMuestreo descendente MayoríaMuestreo ascendente y luego descendente

Regresión logísticaBayes ingenuosMáquina de vectores de apoyoVecino más próximo KÁrbol de decisiónBosque aleatorioXGBoostGradiente potenciado con LightGBMTPOT
Curva de validaciónCurva de aprendizaje
Matriz de confusiónMétricasPrecisiónRetiradaPrecisiónF1Informe de clasificaciónROCCurva Precisión-RecuperaciónGráfico de ganancias acumuladasCurva de elevaciónEquilibrio de clasesError de predicción de claseUmbral de discriminación
Coeficientes de regresiónFunción ImportanciaCALInterpretación de los árbolesGráficos de dependencia parcialModelos sustitutosShapley
Modelo de referenciaRegresión linealSVMsVecino más próximo KÁrbol de decisiónBosque aleatorioRegresión XGBoostRegresión LightGBM
MétricasGráfico de residuosHeteroscedasticidadResiduos normalesGráfico de error de predicción
Shapley
PCAUMAPt-SNEPHATE
K-MeansAgrupación aglomerativa (jerárquica)Comprender las agrupaciones
Tubería de clasificaciónTubería de regresiónTuberías PCA

Content preview from Referencia de bolsillo sobre aprendizaje automático

Capítulo 5. Limpieza de datos

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Podemos utilizar herramientas genéricas como pandas y herramientas especializadas como pyjanitor para ayudarnos con la limpieza de datos.

Nombres de columnas

Si utilizas pandas, tener nombres de columna compatibles con Python hace posible el acceso a los atributos. La función pyjanitor clean_names devolverá un DataFrame con las columnas en minúsculas y los espacios sustituidos por guiones bajos:

>>> import janitor as jn
>>> Xbad = pd.DataFrame(
...     {
...         "A": [1, None, 3],
...         "  sales numbers ": [20.0, 30.0, None],
...     }
... )
>>> jn.clean_names(Xbad)
     a  _sales_numbers_
0  1.0             20.0
1  NaN             30.0
2  3.0              NaN

Consejo

Recomiendo actualizar las columnas utilizando la asignación de índices, el método .assign, la asignación .loc o .iloc. También recomiendo no utilizar la asignación de atributos para actualizar columnas en pandas. Debido al riesgo de sobrescribir métodos existentes con el mismo nombre que una columna, no está garantizado que la asignación de atributos funcione.

La biblioteca pyjanitor es útil, pero no nos permite eliminar los espacios en blanco alrededor de las columnas. Podemos utilizar pandas para tener un control más preciso del cambio de nombre de las columnas:

>>> def clean_col(name):
...     return (
...         name.strip().lower().replace(" ", "_")
...     )

>>> Xbad.rename(columns=clean_col)
     a  sales_numbers
0  1.0           20.0
1 NaN 30.0 ...