Apéndice A. Inmersiones profundas

En esta sección, profundizaremos en algunas áreas técnicas que es importante comprender para completar, pero que no son esenciales.

Regla de la cadena matricial

La primera es una explicación de por qué podemos sustituir WT por ν u ( X ) en la expresión de la regla de la cadena del capítulo 1.

Recuerda que L es literalmente:

σ ( X W 11 ) + σ ( X W 12 ) + σ ( X W 21 ) + σ ( X W 22 ) + σ ( X W 31 ) + σ ( X W 32 )

donde esto es una abreviatura del hecho de que:

σ ( X W 11 ) = σ ( x 11 × w 11 + x 12 × w 21 + x 13 × w 31 )
σ ( X W 12 ) = σ ( x 11 × w 12 + x 12 × w 22 + x 13 × w 32 )

etc. Centrémonos en una sola de estas expresiones. ¿Qué aspecto tendría si tomáramos la derivada parcial de, digamos σ ( X W 11 ) con respecto a cada elemento de X (que es en definitiva lo que querremos hacer con los seis componentes de L )?

Pues bien:

σ ( X W 11 ) = σ ( x 11 × w 11 + x 12 × w 21 + x 13 × w 31 )

no es muy difícil ver que la derivada parcial de ésta con respecto a x 1 mediante una aplicación muy sencilla de la regla de la cadena:

σ u ( X W 11 ) × w 11

Como lo único por lo que se multiplica x11 en la expresión XW11 es w11, la derivada parcial respecto a todo lo demás es 0.

Así pues, al calcular la derivada parcial de σ(XW11) con respecto a todos los elementos de X obtenemos la siguiente expresión global para σ(XW 11 ) X :

σ(XW 11 ) X =

Get Aprendizaje profundo desde cero now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.