book

Aprendizaje profundo desde cero

by Seth Weidman

September 2024

Intermediate to advanced

252 pages

6h 43m

Spanish

O'Reilly Media, Inc.

Book available

Read now

Unlock full access

Comprender las Redes Neuronales Requiere Múltiples Modelos MentalesEsquemas de los capítulosConvenciones utilizadas en este libroUtilizar ejemplos de códigoAprendizaje en línea O'ReillyCómo contactar con nosotrosAgradecimientos
FuncionesMatemáticasDiagramasCódigoDerivadosMatemáticasDiagramasCódigoFunciones anidadasDiagramaMatemáticasCódigoOtro esquemaLa regla de la cadenaMatemáticasCódigoUn ejemplo un poco más largoMatemáticasDiagramaCódigoFunciones con múltiples entradasMatemáticasDiagramaCódigoDerivadas de funciones con múltiples entradasDiagramaMatemáticasCódigoFunciones con múltiples entradas vectorialesMatemáticasCrear nuevas funciones a partir de funciones existentesMatemáticasDiagramaCódigoDerivadas de funciones con varias entradas vectorialesDiagramaMatemáticasCódigoFunciones vectoriales y sus derivadas: Un paso más alláDiagramaMatemáticasCódigoFunciones vectoriales y sus derivadas: El paso atrásGráfico computacional con dos entradas de matriz 2DMatemáticasDiagramaCódigoLa parte divertida: El pase hacia atrásDiagramaMatemáticasCódigoConclusión
Visión general del aprendizaje supervisadoModelos de aprendizaje supervisadoRegresión linealRegresión lineal: Un diagramaRegresión lineal: Un diagrama más útil (y las matemáticas)Añadir la interceptaciónRegresión lineal: El CódigoEntrenar el modeloCálculo de los Gradientes: Un esquemaCálculo de los Gradientes: Las matemáticas (y algo de código)Cálculo de los Gradientes: El código (completo)Utilizar estos gradientes para entrenar el modeloEvaluación de nuestro modelo: Conjunto de entrenamiento frente a conjunto de pruebasEvaluar nuestro modelo: El CódigoAnalizar la característica más importanteRedes neuronales desde ceroPaso 1: Un montón de regresiones linealesPaso 2: Una función no linealPaso 3: Otra regresión linealDiagramasCódigoRedes neuronales: El paso atrásEntrenamiento y evaluación de nuestra primera red neuronalDos razones por las que esto está ocurriendoConclusión
Definición de Aprendizaje Profundo: Una primera pasadaLos componentes básicos de las redes neuronales: OperacionesDiagramaCódigoLos componentes básicos de las redes neuronales: CapasDiagramasBloques de construcción en Bloques de construcciónEl plano de capasLa capa densaLa clase NeuralNetwork, y tal vez otrasDiagramaCódigoClase de pérdidaAprendizaje profundo desde ceroImplantar la formación por lotesRedNeural: CódigoFormador y OptimizadorOptimizadorEntrenadorPonerlo todo juntoNuestro primer modelo de aprendizaje profundo (desde cero)Conclusión y próximos pasos
Algunas intuiciones sobre las redes neuronalesLa función de pérdida de entropía cruzada SoftmaxComponente nº 1: La función SoftmaxComponente nº 2: La pérdida de entropía cruzadaNota sobre las funciones de activaciónExperimentosPreprocesamiento de datosModeloExperimento: Pérdida de entropía cruzada SoftmaxImpulsoIntuición para el impulsoImplementación del impulso en la clase OptimizadorExperimento: Descenso Gradiente Estocástico con MomentoDecaimiento de la Tasa de AprendizajeTipos de disminución de la tasa de aprendizajeExperimentos: Decaimiento de la Tasa de AprendizajeInicialización del pesoMatemáticas y códigoExperimentos: Inicialización del pesoAbandonoDefiniciónAplicaciónExperimentos: AbandonoConclusión
Redes neuronales y aprendizaje de representaciónUna arquitectura diferente para los datos de imagenLa operación de convoluciónLa operación de convolución multicanalCapas convolucionalesImplicaciones de la aplicaciónDiferencias entre las capas convolucionales y las capas totalmente conectadasHacer predicciones con capas convolucionales: La capa de aplanamientoAgrupar capasRealización de la operación de convolución multicanalEl pase hacia delanteConvoluciones: El paso atrásLotes, Convoluciones 2D y Canales MúltiplesConvoluciones 2DEl último elemento: Añadir "Canales"Utilizar esta operación para entrenar una CNNLa operación de aplanadoLa capa Conv2D completaExperimentosConclusión
La limitación clave: Manejar la ramificaciónDiferenciación automáticaCodificar la acumulación de gradientesMotivación de las redes neuronales recurrentesIntroducción a las redes neuronales recurrentesLa primera clase para RNNs: Capa RNNLa segunda clase para RNNs: Nodo RNNJuntar estas dos clasesEl paso atrásRNNs: El CódigoLa clase RNNLayerLos elementos esenciales de los RNNNodos"RNNNodos "vainillaLimitaciones de los RNNN "VanillaUna solución: GRUNodesNodos LSTMRepresentación de datos para un modelo lingüístico basado en RNN a nivel de caracteresOtras tareas de modelado lingüísticoCombinar variantes de RNNLayerPoner todo esto juntoConclusión
Tensores PyTorchAprendizaje profundo con PyTorchElementos de PyTorch: Modelo, Capa, Optimizador y PérdidaImplementación de bloques de construcción de redes neuronales con PyTorch: Capa DensaEjemplo: Modelo de precios de la vivienda en Boston en PyTorchElementos PyTorch: Optimizador y PérdidaElementos PyTorch: EntrenadorTrucos para optimizar el aprendizaje en PyTorchRedes neuronales convolucionales en PyTorchCargador de datos y transformacionesLSTMs en PyTorchPosdata: Aprendizaje no supervisado mediante autocodificadoresAprendizaje de la representaciónUn enfoque para situaciones sin etiqueta algunaImplementar un Autoencoder en PyTorchUna prueba más contundente para el aprendizaje no supervisado, y una soluciónConclusión
Regla de la cadena matricialGradiente de la pérdida respecto a los términos de sesgoConvoluciones mediante multiplicación de matrices

Content preview from Aprendizaje profundo desde cero

Apéndice A. Inmersiones profundas

En esta sección, profundizaremos en algunas áreas técnicas que es importante comprender para completar, pero que no son esenciales.

Regla de la cadena matricial

La primera es una explicación de por qué podemos sustituir ^WT por $\frac{\partial ν}{\partial u} (X)$ en la expresión de la regla de la cadena del capítulo 1.

Recuerda que L es literalmente:

σ (X W_{11}) + σ (X W_{12}) + σ (X W_{21}) + σ (X W_{22}) + σ (X W_{31}) + σ (X W_{32})

donde esto es una abreviatura del hecho de que:

σ (X W_{11}) = σ (x_{11} \times w_{11} + x_{12} \times w_{21} + x_{13} \times w_{31})

σ (X W_{12}) = σ (x_{11} \times w_{12} + x_{12} \times w_{22} + x_{13} \times w_{32})

etc. Centrémonos en una sola de estas expresiones. ¿Qué aspecto tendría si tomáramos la derivada parcial de, digamos $σ (X W_{11})$ con respecto a cada elemento de $X$ (que es en definitiva lo que querremos hacer con los seis componentes de $L$ )?

Pues bien:

σ (X W_{11}) = σ (x_{11} \times w_{11} + x_{12} \times w_{21} + x_{13} \times w_{31})

no es muy difícil ver que la derivada parcial de ésta con respecto a $x_{1}$ mediante una aplicación muy sencilla de la regla de la cadena:

\frac{\partial σ}{\partial u} (X W_{11}) \times w_{11}

Como lo único por lo que se multiplica _x11 en la expresión _XW11 es _w11, la derivada parcial respecto a todo lo demás es 0.

Así pues, al calcular la derivada parcial de σ(_XW11) con respecto a todos los elementos de X obtenemos la siguiente expresión global para $\frac{\partial σ (X W_{11})}{\partial X}$ :