book

Referencia de bolsillo sobre aprendizaje automático

by Matt Harrison

October 2024

Intermediate to advanced

320 pages

5h 2m

Spanish

O'Reilly Media, Inc.

Book available

Read now

Unlock full access

Qué esperarA quién va dirigido este libroConvenciones utilizadas en este libroUtilizar ejemplos de códigoAprendizaje en línea O'ReillyCómo contactar con nosotrosAgradecimientos
Bibliotecas utilizadasInstalación con PipInstalación con Conda
Sugerencia de diseño del proyectoImportacionesHaz una preguntaTérminos para los datosRecopilar datosDatos limpiosCrear funcionesMuestra de datosImputar datosNormalizar datosRefactorizaModelo de referenciaVarias familiasApilandoCrear modeloEvaluar el modeloOptimizar el modeloMatriz de confusiónCurva ROCCurva de aprendizajeModelo de Implementación
Examinar los datos que faltanEliminar los datos que faltanImputar datosAñadir columnas indicadoras
Nombres de columnasSustitución de valores perdidos
Tamaño de los datosEstadísticas resumidasHistogramaGráfico de dispersiónParcela conjuntaRejilla de paresParcelas de Caja y ViolínComparar dos valores ordinalesCorrelaciónRadVizCoordenadas paralelas
NormalizaEscala a RangoVariables ficticiasCodificador de etiquetasCodificación de frecuenciasExtraer categorías de cadenasOtra codificación categóricaFecha Característica IngenieríaAñadir función col_naIngeniería de rasgos manual
Columnas colinealesRegresión LassoEliminación recursiva de rasgosInformación mutuaAnálisis de Componentes PrincipalesFunción Importancia
Utiliza una métrica diferenteAlgoritmos basados en árboles y conjuntosPenalizar ModelosSobremuestreo MinoríaGenerar datos de minoríasMuestreo descendente MayoríaMuestreo ascendente y luego descendente

Regresión logísticaBayes ingenuosMáquina de vectores de apoyoVecino más próximo KÁrbol de decisiónBosque aleatorioXGBoostGradiente potenciado con LightGBMTPOT
Curva de validaciónCurva de aprendizaje
Matriz de confusiónMétricasPrecisiónRetiradaPrecisiónF1Informe de clasificaciónROCCurva Precisión-RecuperaciónGráfico de ganancias acumuladasCurva de elevaciónEquilibrio de clasesError de predicción de claseUmbral de discriminación
Coeficientes de regresiónFunción ImportanciaCALInterpretación de los árbolesGráficos de dependencia parcialModelos sustitutosShapley
Modelo de referenciaRegresión linealSVMsVecino más próximo KÁrbol de decisiónBosque aleatorioRegresión XGBoostRegresión LightGBM
MétricasGráfico de residuosHeteroscedasticidadResiduos normalesGráfico de error de predicción
Shapley
PCAUMAPt-SNEPHATE
K-MeansAgrupación aglomerativa (jerárquica)Comprender las agrupaciones
Tubería de clasificaciónTubería de regresiónTuberías PCA

Content preview from Referencia de bolsillo sobre aprendizaje automático

Capítulo 3. Paseo por la clasificación: Conjunto de datos Titanic

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Este capítulo recorrerá un problema habitual de clasificación utilizando elconjunto de datos Titanic. En capítulos posteriores se profundizará y ampliará en los pasos habituales que se realizan durante un análisis.

Sugerencia de diseño del proyecto

Una herramienta excelente para realizar análisis exploratorios de datos es Jupyter. Jupyter es un entorno de cuaderno de código abierto compatible con Python y otros lenguajes. Te permite crear celdas de código o contenido Markdown.

Suelo utilizar Jupyter de dos modos. Uno es para el análisis exploratorio de datos y para probar cosas rápidamente. El otro es más un estilo de entregable en el que formateo un informe utilizando celdas Markdown e inserto celdas de código para ilustrar puntos o descubrimientos importantes. Si no tienes cuidado, tus cuadernos pueden necesitar cierta refactorización y la aplicación de prácticas de ingeniería de software (eliminar globales, utilizar funciones y clases, etc.).

El paquete de ciencia de datos cookiecutter sugiere un diseño para crear un análisis que permite reproducirlo fácilmente y compartir el código.

Importaciones

Este ejemplo se basa principalmente en pandas, scikit-learn y Yellowbrick. La biblioteca pandas nos proporciona herramientas para una fácil manipulación de datos. La biblioteca scikit-learn tiene un ...