book

Aprendizaje automático práctico con Scikit-Learn y PyTorch.

by Aurélien Géron

October 2025

Intermediate to advanced

878 pages

29h 3m

Spanish

O'Reilly Media, Inc.

Book available

Read now

Unlock full access

Aprendizaje automático en tus proyectosObjetivo y enfoqueEjemplos de códigoRequisitos previosHoja de rutaCambios entre las versiones de TensorFlow y PyTorchOtros RecursosConvenciones utilizadas en este libroAprendizaje en línea de O'ReillyCómo contactar con nosotrosAgradecimientos
¿Qué es el aprendizaje automático?¿Por qué utilizar el Aprendizaje Automático?Ejemplos de AplicacionesTipos de sistemas de aprendizaje automáticoSupervisión del entrenamientoAprendizaje por lotes frente a aprendizaje en líneaAprendizaje basado en instancias frente a aprendizaje basado en modelosPrincipales retos del aprendizaje automáticoCantidad insuficiente de datos de entrenamientoDatos de entrenamiento no representativosDatos de baja calidadCaracterísticas irrelevantesSobreajuste de los datos de entrenamientoAjuste insuficiente de los datos de entrenamientoProblemas de ImplementaciónRetrocesoPruebas y validaciónAjuste de hiperparámetros y selección de modelosDesajuste de datosEjercicios
Trabajar con Datos RealesVisión de conjuntoEncuadrar el problemaSelecciona una medida de rendimientoComprueba los supuestosObtén los datosEjecutar los ejemplos de código con Google ColabGuardar tus cambios de código y tus datosEl poder y el peligro de la interactividadCódigo de libro frente a código de cuadernoDescarga los DatosEcha un vistazo rápido a la estructura de los datosCrear un Conjunto de PruebasExplora y Visualiza los Datos para Obtener PerspectivasVisualizar Datos GeográficosBusca CorrelacionesExperimenta con Combinaciones de AtributosPrepara los Datos para los Algoritmos de Aprendizaje AutomáticoLimpiar los DatosManejo de Atributos Categóricos y de TextoEscalado y Transformación de CaracterísticasTransformadores personalizadosTuberías de transformaciónSelecciona y entrena un modeloEntrenar y evaluar con el conjunto de entrenamientoMejor evaluación mediante validación cruzadaAfina tu modeloBúsqueda en cuadrículaBúsqueda aleatoriaMétodos conjuntosAnalizar los mejores modelos y sus erroresEvalúa tu sistema en el conjunto de pruebasPoner en marcha, monitorizar y mantener tu sistemaPruébaloEjercicios
MNISTEntrenamiento de un Clasificador BinarioMedidas de rendimientoMedición de la precisión mediante validación cruzadaMatrices de confusiónPrecisión y recuperaciónEl compromiso precisión/recuperaciónLa curva ROCClasificación MulticlaseAnálisis de erroresClasificación MultietiquetaClasificación MultisalidaEjercicios
Regresión linealLa ecuación normalComplejidad computacionalDescenso GradienteDescenso gradiente por lotesDescenso Gradiente EstocásticoDescenso Gradiente Mini-LotesRegresión polinómicaCurvas de AprendizajeModelos lineales regularizadosRegresión RidgeRegresión LassoRegresión de red elásticaParada anticipadaRegresión logísticaEstimación de probabilidadesEntrenamiento y función de costeLímites de decisiónRegresión SoftmaxEjercicios
Entrenamiento y Visualización de un Árbol de DecisiónHacer PrediccionesEstimación de probabilidades de claseEl algoritmo de entrenamiento CARTComplejidad computacional¿Impureza de Gini o Entropía?Hiperparámetros de regularizaciónRegresiónSensibilidad a la orientación de los ejesLos árboles de decisión tienen una varianza altaEjercicios
Clasificadores por votaciónSacar y pegarEnsacado y pegado en Scikit-LearnEvaluación fuera de bolsaParches aleatorios y subespacios aleatoriosBosques aleatoriosExtraárbolesImportancia de las característicasPotenciaciónAdaBoostPotenciación por gradientePotenciación de gradientes basada en histogramasApilarEjercicios
La Maldición de la DimensionalidadPrincipales enfoques para la reducción de la dimensionalidadProyecciónAprendizaje múltiplePCAPreservación de la varianzaComponentes principalesProyección a d dimensionesUso de Scikit-LearnRelación de varianza explicadaElegir el número adecuado de dimensionesPCA para la compresiónACP aleatorioPCA incrementalProyección AleatoriaLLEOtras técnicas de reducción de la dimensionalidadEjercicios
Algoritmos de agrupación: k-means y DBSCANAgrupación de k-MeansLímites de k-MeansUso de la Agrupación para la Segmentación de ImágenesUso de la Agrupación para el Aprendizaje SemisupervisadoDBSCANOtros Algoritmos de ClusteringMezclas gaussianasUso de mezclas gaussianas para la detección de anomalíasSelección del número de conglomeradosModelos Bayesianos de Mezclas GaussianasOtros algoritmos de detección de anomalías y novedadesEjercicios

De las neuronas biológicas a las artificialesNeuronas BiológicasCálculos lógicos con neuronasEl PerceptrónEl perceptrón multicapa y la retropropagaciónConstrucción y entrenamiento de MLP con Scikit-LearnMLP de regresiónMLP de clasificaciónPautas para el ajuste de hiperparámetrosNúmero de capas ocultasNúmero de neuronas por capa ocultaTasa de aprendizajeTamaño del loteOtros hiperparámetrosEjercicios
Fundamentos de PyTorchTensores PyTorchAceleración del hardwareAutogradImplementación de la regresión linealRegresión lineal con tensores y AutogradRegresión lineal con la API de alto nivel de PyTorchImplementación de un MLP de regresiónImplementación del Mini-Batch Gradient Descent con DataLoadersEvaluación de modelosConstrucción de modelos no secuenciales con módulos personalizadosConstruir modelos con múltiples entradasConstruir modelos con múltiples salidasCreación de un clasificador de imágenes con PyTorchUtilizar TorchVision para cargar el conjunto de datosConstruir el ClasificadorAjuste fino de hiperparámetros de redes neuronales con OptunaGuardar y cargar modelos PyTorchCompilación y optimización de un modelo PyTorchEjercicios
El problema de los degradados que desaparecen y explotanInicialización de Glorot e Inicialización de HeMejores Funciones de ActivaciónNormalización por LotesNormalización de CapasRecorte de gradienteReutilización de capas preentrenadasAprendizaje por transferencia con PyTorchPreentrenamiento no supervisadoPreentrenamiento en una tarea auxiliarOptimizadores más rápidosMomentoGradiente acelerado de NesterovAdaGradRMSPropAdamAdaMaxNAdamAdamWProgramación de la Tasa de AprendizajeProgramación exponencialRecocido CosenoProgramación del rendimientoCalentamiento de la tasa de aprendizajeRecocido de coseno con reinicios en calienteProgramación de 1 cicloEvitar el sobreajuste mediante la regularizaciónRegularización ℓ1 y ℓ2AbandonoAbandono Monte CarloRegularización Max-NormaGuía prácticaEjercicios
La arquitectura de la corteza visualCapas ConvolucionalesFiltrosApilamiento de múltiples mapas de característicasImplementación de capas convolucionales con PyTorchCapas de agrupamientoImplementación de capas de agrupamiento con PyTorchArquitecturas CNNLeNet-5AlexNetGoogLeNetResNetXceptionSENetOtras arquitecturas dignas de menciónElegir la arquitectura CNN adecuadaRequisitos de RAM de la GPU: Inferencia frente a entrenamientoRedes residuales reversibles (RevNets)Implementación de una CNN ResNet-34 con PyTorchUso de los modelos preentrenados de TorchVisionModelos preentrenados para el aprendizaje por transferenciaClasificación y LocalizaciónDetección de objetosRedes totalmente convolucionalesSólo se mira una vezSeguimiento de objetosSegmentación SemánticaEjercicios
Neuronas y capas recurrentesCeldas de memoriaSecuencias de entrada y salidaEntrenamiento de RNNPredicción de series temporalesLa familia de modelos ARMAPreparación de los datos para los modelos de aprendizaje automáticoPrevisión con un modelo linealPrevisión con una RNN simplePrevisión con una RNN profundaPrevisión de series temporales multivariantesPrevisión con varios pasos temporales de antelaciónPrevisión con un modelo secuencia a secuenciaManejo de secuencias largasCombatir el problema de los gradientes inestablesAbordar el problema de la memoria a corto plazoEjercicios
Generación de textos de Shakespeare con una RNN de caracteresCreación del conjunto de datos de entrenamientoIncrustacionesConstruir y entrenar el modelo Char-RNNGeneración de textos falsos de ShakespeareAnálisis de Sentimientos con Bibliotecas de Caras AbrazadasTokenización con la biblioteca de tokenizadores Cara AbrazadaReutilización de tokenizadores preentrenadosConstruir y entrenar un modelo de análisis de sentimientoRNN bidireccionalesReutilización de incrustaciones y modelos lingüísticos preentrenadosClases específicas de tareasLa API del EntrenadorTuberías de caras abrazadasUna red codificadora-decodificadora para la traducción automática neuronalBúsqueda de hacesMecanismos de atenciónEjercicios
La atención es todo lo que necesitas: La arquitectura original de los transformadoresCodificaciones posicionalesAtención multicabezaConstruir el resto del transformadorConstrucción de un transformador inglés-españolTransformadores sólo codificadores para la comprensión del lenguaje naturalArquitectura de BERTPreentrenamiento de BERTAjuste fino del BERTOtros modelos sólo codificadorTransformadores sólo decodificadoresArquitectura GPT-1 y preentrenamiento generativoGPT-2 y aprendizaje de disparo ceroGPT-3, Aprendizaje En-Contexto, Aprendizaje en Un Momento y Aprendizaje en Pocos MomentosUso de GPT-2 para generar textoUso de GPT-2 para responder preguntasDescarga y ejecución de un modelo aún mayor: Mistral-7BConvertir un gran modelo lingüístico en un chatbotAjuste fino de un modelo para chatear y seguir instrucciones mediante SFT y RLHFOptimización directa de preferencias (OPD)Ajuste fino de un modelo con la biblioteca TRLDe un modelo de chatbot a un sistema completo de chatbotProtocolo de Contexto del ModeloBibliotecas y herramientasModelos codificador-decodificadorEjercicios
Transformadores de visiónRNN con atención visualDETR: un híbrido CNN-transformador para la detección de objetosEl ViT originalTransformador de imágenes eficiente en datosTransformador de Visión Piramidal para Tareas de Predicción DensaEl Transformador Swin: Un ViT rápido y versátilDINO: Aprendizaje Autosupervisado de Representaciones VisualesOtros modelos y técnicas de visión importantesTransformadores multimodalesVideoBERT: Una variante de BERT para texto y vídeoViLBERT: Transformador de doble flujo para texto e imagenCLIP: Un modelo de codificador dual de texto e imagen entrenado con preentrenamiento contrastivoDALL-E: Generación de imágenes a partir de prompt de textoPerceptor: Uniendo Modalidades de Alta Resolución con Espacios LatentesPerceptor IO: Un mecanismo de salida flexible para el perceptorFlamingo: Diálogo visual abiertoBLIP y BLIP-2Otros modelos multimodalesEjercicios
Representaciones de datos eficientesRealización del ACP con un autocodificador lineal incompletoAutocodificadores apiladosImplementación de un autocodificador apilado con PyTorchVisualización de las reconstruccionesDetección de anomalías con autocodificadoresVisualización del conjunto de datos MNIST de modaPreentrenamiento no supervisado con autocodificadores apiladosVinculación de pesosEntrenamiento de un autocodificador cada vezAutocodificadores convolucionalesAutocodificadores de eliminación de ruidoAutocodificadores dispersosAutocodificadores variacionalesGenerar imágenes MNIST de modaAutocodificadores variacionales discretosRedes Adversariales GenerativasLas dificultades del entrenamiento de las GANModelos de difusiónEjercicios
¿Qué es el aprendizaje por refuerzo?Gradientes de PolíticaIntroducción a la Biblioteca del GimnasioPolíticas de las Redes NeuronalesEvaluación de Acciones: El Problema de la Asignación de CréditosResolver el Problema de la Cesta Utilizando Gradientes de PolíticasMétodos basados en valoresProcesos de Decisión de MarkovAprendizaje por Diferencias TemporalesAprendizaje QPolíticas de exploraciónQ-Learning Aproximado y Q-Learning ProfundoImplementación del Q-Learning ProfundoMejoras en DQNAlgoritmos Actor-CríticoDominar Atari Breakout utilizando la implementación PPO de Stable-Baselines3Visión general de algunos algoritmos populares de RLEjerciciosGracias
Diferenciación manualAproximación por diferencias finitasAutodiferenciación hacia delanteAutodiferenciación inversa
Representaciones numéricas comunesModelos de precisión reducidaEntrenamiento de precisión mixtaCuantificaciónCuantificación linealCuantificación post-entrenamiento con torch.ao.quantizationEntrenamiento consciente de la cuantificación (QAT)Cuantificación de LLMs con la biblioteca bitsandbytesUso de modelos precuantizados

Content preview from Aprendizaje automático práctico con Scikit-Learn y PyTorch.

Capítulo 16. Visión y transformadores multimodales

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

En el capítulo anterior, implementamos un transformador desde cero y lo convertimos en un sistema de traducción, luego exploramos modelos de sólo codificador para NLU, modelos de sólo decodificador para NLG, e incluso construimos un pequeño chatbot: ¡todo un viaje! Sin embargo, aún queda mucho por decir sobre los transformadores. En concreto, hasta ahora sólo nos hemos ocupado del texto, pero los transformadores han resultado ser excepcionalmente buenos procesando todo tipo de entradas. En este capítulo cubriremos los transformadores de visión (ViT), capaces de procesar imágenes, seguidos por los transformadores multimodales, capaces de manejar múltiples modalidades, incluyendo texto, imágenes, audio, vídeos, sensores y actuadores robóticos, y realmente cualquier tipo de datos.

En la primera parte de este capítulo, hablaremos de algunos de los transformadores de visión pura más influyentes:

DETR (Transformador de Detección): Un primer transformador codificador-decodificador para la detección de objetos.
El ViT (Transformador de Visión) original: Este transformador de sólo codificador de puntos de referencia trata los parches de imagen como tokens de palabras y alcanza el estado del arte si se entrena con un gran conjunto de datos.
DeiT (Transformador de Imagen Eficiente en Datos): Un ViT más eficiente en cuanto ...