book

Referencia de bolsillo sobre aprendizaje automático

by Matt Harrison

October 2024

Intermediate to advanced

320 pages

5h 2m

Spanish

O'Reilly Media, Inc.

Book available

Read now

Unlock full access

Qué esperarA quién va dirigido este libroConvenciones utilizadas en este libroUtilizar ejemplos de códigoAprendizaje en línea O'ReillyCómo contactar con nosotrosAgradecimientos
Bibliotecas utilizadasInstalación con PipInstalación con Conda
Sugerencia de diseño del proyectoImportacionesHaz una preguntaTérminos para los datosRecopilar datosDatos limpiosCrear funcionesMuestra de datosImputar datosNormalizar datosRefactorizaModelo de referenciaVarias familiasApilandoCrear modeloEvaluar el modeloOptimizar el modeloMatriz de confusiónCurva ROCCurva de aprendizajeModelo de Implementación
Examinar los datos que faltanEliminar los datos que faltanImputar datosAñadir columnas indicadoras
Nombres de columnasSustitución de valores perdidos
Tamaño de los datosEstadísticas resumidasHistogramaGráfico de dispersiónParcela conjuntaRejilla de paresParcelas de Caja y ViolínComparar dos valores ordinalesCorrelaciónRadVizCoordenadas paralelas
NormalizaEscala a RangoVariables ficticiasCodificador de etiquetasCodificación de frecuenciasExtraer categorías de cadenasOtra codificación categóricaFecha Característica IngenieríaAñadir función col_naIngeniería de rasgos manual
Columnas colinealesRegresión LassoEliminación recursiva de rasgosInformación mutuaAnálisis de Componentes PrincipalesFunción Importancia
Utiliza una métrica diferenteAlgoritmos basados en árboles y conjuntosPenalizar ModelosSobremuestreo MinoríaGenerar datos de minoríasMuestreo descendente MayoríaMuestreo ascendente y luego descendente

Regresión logísticaBayes ingenuosMáquina de vectores de apoyoVecino más próximo KÁrbol de decisiónBosque aleatorioXGBoostGradiente potenciado con LightGBMTPOT
Curva de validaciónCurva de aprendizaje
Matriz de confusiónMétricasPrecisiónRetiradaPrecisiónF1Informe de clasificaciónROCCurva Precisión-RecuperaciónGráfico de ganancias acumuladasCurva de elevaciónEquilibrio de clasesError de predicción de claseUmbral de discriminación
Coeficientes de regresiónFunción ImportanciaCALInterpretación de los árbolesGráficos de dependencia parcialModelos sustitutosShapley
Modelo de referenciaRegresión linealSVMsVecino más próximo KÁrbol de decisiónBosque aleatorioRegresión XGBoostRegresión LightGBM
MétricasGráfico de residuosHeteroscedasticidadResiduos normalesGráfico de error de predicción
Shapley
PCAUMAPt-SNEPHATE
K-MeansAgrupación aglomerativa (jerárquica)Comprender las agrupaciones
Tubería de clasificaciónTubería de regresiónTuberías PCA

Content preview from Referencia de bolsillo sobre aprendizaje automático

Capítulo 11. Selección del modelo

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Este capítulo tratará sobre la optimización de los hiperparámetros. También explorará la cuestión de si el modelo necesita más datos para funcionar mejor.

Curva de validación

Crear una curva de validación es una forma de determinar un valor adecuado para un hiperparámetro. Una curva de validación es un gráfico que muestra cómo responde el rendimiento del modelo a los cambios en el valor del hiperparámetro (véase la Figura 11-1). El gráfico muestra tanto los datos de entrenamiento como los de validación. Las puntuaciones de validación nos permiten inferir cómo respondería el modelo ante datos no vistos. Normalmente, elegiríamos un hiperparámetro que maximizara la puntuación de validación.

En el siguiente ejemplo, utilizaremos Yellowbrick para ver si cambiar el valor del hiperparámetro max_depthmodifica el rendimiento del modelo de un bosque aleatorio. Puedes proporcionar un conjunto de parámetros scoring a una métrica del modelo scikit-learn (el valor predeterminado para la clasificación es 'accuracy'):

Consejo

Utiliza el parámetro n_jobs para aprovechar las CPUs y ejecutarlo más rápido. Si lo ajustas a -1, utilizará todas las CPUs.

>>> from yellowbrick.model_selection import (
...     ValidationCurve,
... )
>>> fig, ax = plt.subplots(figsize=(6, 4))
>>> vc_viz = ValidationCurve(
...     RandomForestClassifier(n_estimators=100),
... ...