Capítulo 4. Álgebra lineal y cálculo para el aprendizaje profundo

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

El álgebra y el cálculo son partes integrantes de la ciencia de datos. Los algoritmos de aprendizaje automático y aprendizaje profundo se basan principalmente en técnicas de álgebra y cálculo. Este capítulo presenta algunos temas clave de forma que todos puedan entenderlos.

El álgebra es el estudio de las operaciones y reglas relacionales, así como de las construcciones e ideas que se derivan de ellas. El álgebra abarca temas como las ecuaciones lineales y las matrices. Puedes considerar el álgebra como el primer paso hacia el cálculo.

El cálculo es el estudio de las pendientes de las curvas y las tasas de cambio. El cálculo abarca temas como las derivadas y las integrales. Se utiliza mucho en muchos campos, como la economía y la ingeniería. Muchos algoritmos de aprendizaje se basan en los conceptos del cálculo para realizar sus complejas operaciones.

La distinción entre ambas es que, mientras el cálculo trabaja con ideas de cambio, movimiento y acumulación, el álgebra se ocupa de los símbolos matemáticos y de las reglas para manipular esos símbolos. El cálculo se centra en las características y el comportamiento de las funciones cambiantes, mientras que el álgebra ofrece la base para resolver ecuaciones y comprender funciones.

Álgebra lineal

El álgebra abarca diversas estructuras matemáticas, como números, variables y operaciones como la suma, la resta, la multiplicación y la división. El álgebra lineal es una rama fundamental del álgebra que se ocupa de los espacios vectoriales y las transformaciones lineales. Se utiliza mucho en el aprendizaje automático y el aprendizaje profundo para tareas como el preprocesamiento de datos, la reducción de la dimensionalidad y la resolución de sistemas de ecuaciones lineales. Las matrices y los vectores son estructuras de datos centrales en el álgebra lineal, y operaciones como la multiplicación de matrices son comunes en diversos algoritmos.

Vectores y matrices

Un vector es un objeto que tiene una magnitud (longitud) y una dirección (punta de flecha). La representación básica de un vector es una flecha con coordenadas en el eje. Pero antes, veamos qué es un eje.

El eje x y el eje y son líneas perpendiculares que especifican los límites de un plano y la ubicación de los distintos puntos dentro de ellos en un sistema de coordenadas cartesianas bidimensional. El eje x es horizontal y el eje y es vertical.

Estos ejes pueden representar vectores, con el eje x representando la componente horizontal del vector y el eje y representando su componente vertical.

Nota

En el análisis de series temporales, el eje x suele ser el paso temporal (horas, días, etc.), y el eje y es el valor en el paso temporal correspondiente (precio, rendimiento, etc.).

La figura 4-1 muestra un sencillo sistema de coordenadas cartesianas bidimensional con ambos ejes.

El sistema de coordenadas cartesianas bidimensional utiliza simples paréntesis para mostrar la ubicación de los distintos puntos siguiendo este orden:

  • Coordenadas del punto = (x, y)

  • La variable x representa la ubicación horizontal

  • La variable y representa la ubicación horizontal

Figura 4-1. Un sistema de coordenadas cartesianas bidimensional

Por tanto, si quieres dibujar el punto A, que tiene (2, 3) como coordenadas, lo más probable es que mires una gráfica desde el punto cero, muevas dos puntos hacia la derecha y, desde ahí, muevas tres puntos hacia arriba. El resultado del punto debería parecerse al de la Figura 4-2.

Figura 4-2. Localización de A en el sistema de coordenadas

Añadamos ahora otro punto y tracemos un vector entre ellos. Supongamos que tienes el punto B con (4, 5) como coordenadas. Naturalmente, como las coordenadas de B son mayores que las de A, es de esperar que el vector AB tenga pendiente ascendente. La figura 4-3 muestra el nuevo punto B y el vector AB.

Figura 4-3. Vector AB que une los puntos A y B en magnitud y dirección

Sin embargo, habiendo dibujado el vector utilizando las coordenadas de ambos puntos, ¿cómo te referirías al vector? Sencillamente, el vector AB tiene sus propias coordenadas que lo representan. Recuerda que el vector es una representación del movimiento del punto A al punto B. Esto significa que el movimiento de los dos puntos a lo largo del eje x y del eje y es el vector. Matemáticamente, para hallar el vector, debes restar los dos puntos de coordenadas entre sí respetando la dirección. He aquí cómo hacerlo:

  • El vector AB significa que vas de A a B; por tanto, tienes que restar las coordenadas del punto B a las coordenadas del punto A:

    AB = 4 - 2 , 5 - 3 AB = 2 , 2

  • El vector BA significa que vas de B a A; por tanto, tienes que restar las coordenadas del punto A a las coordenadas del punto B:

    BA = 2 - 4 , 3 - 5 BA = - 2 , - 2

Para interpretar los vectores AB y BA, tienes que pensar en términos de movimiento. El vector AB representa ir del punto A al punto B, dos puntos positivos horizontal y verticalmente (hacia la derecha y hacia arriba, respectivamente). El vector BA representa ir del punto B al punto A, dos puntos negativos horizontal y verticalmente (hacia la izquierda y hacia abajo, respectivamente).

Nota

Los vectores AB y BA no son lo mismo aunque tengan la misma pendiente. Pero, ¿qué es una pendiente?

La pendiente es la relación entre el cambio vertical entre dos puntos de la recta y el cambio horizontal entre los mismos dos puntos. Calcula la pendiente mediante esta fórmula matemática:

S l o p e = (ΔY) (ΔX) S l o p e o f AB = 2 2 = 1 S l o p e o f BA = -2 -2 = 1

Si los dos vectores fueran simplemente líneas (sin dirección), entonces serían el mismo objeto. Sin embargo, al añadirles la componente direccional, se convierten en dos objetos matemáticos distinguibles.

La figura 4-4 arroja más luz sobre el concepto de pendiente, ya que x se ha desplazado dos puntos a la derecha e y se ha desplazado dos puntos a la izquierda.

Figura 4-4. El cambio en x y el cambio en y para el vector AB
Nota

Un vector que tiene una magnitud de 1 se denomina vector unitario.

La figura 4-5 muestra el cambio en x y el cambio en y en el caso del vector BA.

Figura 4-5. El cambio en x y el cambio en y para el vector BA

Los investigadores suelen utilizar vectores como representaciones de la velocidad, sobre todo en ingeniería. La navegación es un campo que depende en gran medida de los vectores. Permiten a los navegantes determinar sus posiciones y planificar sus destinos. Naturalmente, la magnitud representa la velocidad y la dirección representa el destino.

Puedes sumar y restar vectores entre sí y de escalares. Esto permite cambiar la dirección y la magnitud. Lo que debes retener de la discusión anterior es que los vectores indican direcciones entre distintos puntos del eje.

Nota

Un escalar es un valor con magnitud pero sin dirección. Los escalares, a diferencia de los vectores, se utilizan para representar elementos, como la temperatura y los precios. Básicamente, los escalares son números.

Una matriz es una matriz rectangular que contiene números y está organizada en filas y columnas.1 Las matrices son útiles en infografía y otros ámbitos, así como para definir y manipular sistemas lineales de ecuaciones. ¿Qué diferencia una matriz de un vector? La respuesta más sencilla es que un vector es una matriz con una sola columna o una sola fila. He aquí un ejemplo básico de una matriz de 3 × 3:

[ 5 2 9 - 8 10 13 1 5 12 ]

El tamaño de una matriz es el número de filas y columnas que contiene. Una fila es una línea horizontal, y una columna es una línea vertical. La siguiente representación es una matriz de 2 × 4 (es decir, dos filas por cuatro columnas):

[ 5 2 1 3 - 8 10 9 4 ]

La siguiente representación es una matriz de 4 × 2 (es decir, cuatro filas por dos columnas):

[ 5 2 - 8 10 8 22 7 3 ]

Nota

Las matrices se utilizan mucho en el aprendizaje automático. Las filas suelen representar el tiempo y las columnas las características.

La suma de matrices diferentes es sencilla, pero sólo debe utilizarse cuando las matrices coinciden en tamaño (lo que significa que tienen el mismo número de columnas y filas). Por ejemplo, sumemos las dos matrices siguientes:

[ 1 2 5 8 ] + [ 3 9 1 5 ] = [ 4 11 6 13 ]

Puedes ver que para sumar dos matrices, simplemente tienes que sumar los números en las mismas posiciones. Ahora bien, si intentas sumar el siguiente par de matrices, no podrás hacerlo, ya que hay un desajuste en lo que hay que sumar:

[ 8 3 3 2 ] + [ 3 9 1 5 5 4 ]

La resta de matrices también es sencilla y sigue las mismas reglas que la suma de matrices. Tomemos el siguiente ejemplo:

[ 5 2 - 8 10 ] - [ 3 9 - 1 - 5 ] = [ 2 - 7 - 9 15 ]

Evidentemente, la resta de matrices es también una suma de matrices con cambio de signo en una de ellas.

La multiplicación de matrices por un escalar es bastante sencilla. Tomemos el siguiente ejemplo:

3 × [ 5 2 8 22 ] = [ 15 6 24 66 ]

Así que, básicamente, estás multiplicando cada celda de la matriz por el escalar. Multiplicar una matriz por otra matriz es un poco más complicado, ya que utiliza el métododel producto punto . En primer lugar, para multiplicar dos matrices entre sí, deben cumplir esta condición:

Matriz xy × Matriz yz = Matriz xz

Esto significa que la primera matriz debe tener un número de columnas igual al número de filas de la segunda matriz, y la matriz resultante del producto punto es una matriz que tiene el número de filas de la primera matriz y el número de columnas de la segunda matriz. El producto punto se explica en el siguiente ejemplo de representación de una multiplicación de matrices 1 × 3 y 3 × 1 (fíjate en el mismo número de columnas y filas):

[ 1 2 3 ] × [ 3 2 1 ] = [ ( 1 × 3 ) + ( 2 × 2 ) + ( 3 × 1 ) ] = [ 10 ]

Veamos ahora un ejemplo de multiplicación de matrices 2 × 2:

[ 1 2 0 1 ] × [ 3 0 2 1 ] = [ 7 2 2 1 ]

Existe un tipo especial de matriz llamada matriz identidad, que es básicamente el número 1 de las matrices. Se define así para una dimensión de 2 × 2:

I = [ 1 0 0 1 ]

y como sigue para una dimensión 3 × 3:

I = [ 1 0 0 0 1 0 0 0 1 ]

Al multiplicar cualquier matriz por la matriz identidad se obtiene la misma matriz original. Por eso puede denominarse el 1 de las matrices (multiplicar cualquier número por 1 da el mismo número). Cabe señalar que la multiplicación de matrices no es conmutativa, lo que significa que el orden de la multiplicación modifica el resultado:

A B B A

La transposición de una matriz es un proceso que consiste en cambiar las filas por columnas y viceversa. La transposición de una matriz se obtiene reflejando la matriz a lo largo de su diagonal principal:

[461142] T = [ 4 1 6 4 1 2 ]

La transposición se utiliza en algunos algoritmos de aprendizaje automático y no es una operación infrecuente cuando se trabaja con este tipo de modelos. Si te preguntas cuál es el papel de las matrices en la ciencia de datos y el aprendizaje automático, puedes consultar esta lista no exhaustiva:

Representación de los datos

Las matrices suelen representar datos con filas que representan muestras y columnas que representan características. Por ejemplo, una fila de una matriz puede presentar datos de OHLC en un paso temporal.

Álgebra lineal

Las matrices y el álgebra lineal están entrelazadas, y muchos algoritmos de aprendizaje utilizan los conceptos de las matrices en sus operaciones. Tener una comprensión básica de estos conceptos matemáticos ayuda a suavizar la curva de aprendizaje cuando se trata de algoritmos de aprendizaje automático.

Matrices de relación de datos

Las medidas de covarianza y correlación suelen representarse como matrices. Estos cálculos de relación son conceptos importantes en el análisis de series temporales.

Nota

Los puntos clave de esta sección son los siguientes:

  • Un vector es un objeto que tiene una magnitud (longitud) y una dirección (punta de flecha). Varios vectores agrupados forman una matriz.
  • Una matriz puede utilizarse para almacenar datos. Tiene sus formas especiales de realizar operaciones.
  • La multiplicación de matrices utiliza el método del producto punto.
  • Transponer una matriz significa intercambiar sus filas y sus columnas.

Introducción a las ecuaciones lineales

Viste un ejemplo de ecuación lineal en "Análisis de regresión e inferencia estadística". Las ecuaciones lineales son básicamente fórmulas que presentan una relación de igualdad entre distintas variables y constantes. En el caso del aprendizaje automático, suele tratarse de una relación entre una variable dependiente (la salida) y una variable independiente (la entrada). La mejor forma de entender las ecuaciones lineales es mediante ejemplos.

Nota

El objetivo de las ecuaciones lineales es hallar una variable desconocida, normalmente denotada por la letra x.

Empezaremos con un ejemplo muy básico que puedes considerar como un primer bloque de construcción hacia los conceptos más avanzados que verás más adelante. El siguiente ejemplo requiere encontrar el valor de x que satisface la ecuación:

10 x = 20

Debes entender la ecuación como "¿10 veces qué número es igual a 20?".Cuando una constante se une directamente a una variable como x, se refiere a una operación de multiplicación. Ahora bien, para resolver x ( es decir, encontrar el valor de x que iguala la ecuación), tienes una solución obvia, que es deshacerte de 10 de modo que tengas x en un lado de la ecuación y el resto en el otro lado.

Naturalmente, para deshacerte de 10, divides por 10, de modo que lo que queda es 1, que si se multiplica por la variable x no hace nada. Sin embargo, ten en cuenta dos cosas importantes:

  • Si haces una operación matemática en un lado de una ecuación, debes hacerla también en el otro lado. Por eso se llaman ecuaciones.
  • Para simplificar, en lugar de dividir por la constante para deshacerte de ella, debes multiplicarla por su recíproco.

El recíproco de un número es 1 dividido por ese número. He aquí su representación matemática:

R e c i p r o c a l ( x ) = 1 x

Ahora, volviendo al ejemplo, para hallar x puedes hacer lo siguiente:

( 1 10 ) 10 x = 20 ( 1 10 )

Realizando la multiplicación y simplificando se obtiene el siguiente resultado:

x = 2

Esto significa que la solución de la ecuación es 2. Para comprobarlo, sólo tienes que introducir 2 en la ecuación original de la siguiente manera:

10 × 2 = 20

Por lo tanto, hacen falta dos 10 para obtener 20.

Nota

Dividir el número por sí mismo es lo mismo que multiplicarlo por su recíproco.

Veamos otro ejemplo de cómo resolver x mediante técnicas lineales. Considera el siguiente problema:

8 6 x = 24

Realizando la multiplicación y simplificando se obtiene el siguiente resultado:

( 6 8 ) 8 6 x = 24 ( 6 8 )

x = 18

Esto significa que la solución de la ecuación es 18. Para comprobarlo, sólo tienes que introducir 18 en la ecuación original de la siguiente manera:

8 6 × 18 = 24

Normalmente, las ecuaciones lineales no son tan sencillas. A veces contienen más variables y más constantes, que necesitan soluciones más detalladas, pero sigamos paso a paso. Considera el siguiente ejemplo:

3 x - 6 = 12

Resolver x requiere reordenar un poco la ecuación. Recuerda que el objetivo es dejar x en un lado y el resto en el otro. En este caso, tienes que deshacerte de la constante 6 antes de ocuparte de 3. La primera parte de la solución es la siguiente:

3 x - 6 ( + 6 ) = 12 ( + 6 )

Observa que tienes que sumar 6 a ambas partes de la ecuación. La parte de la izquierda se anulará sola, mientras que la parte de la derecha sumará 18:

3 x = 18

Por último, ya tienes todo listo para multiplicar por el recíproco de la constante unida a la variable x:

( 1 3 ) 3 x = 18 ( 1 3 )

Simplificando y resolviendo para x se obtiene la siguiente solución:

x = 6

Esto significa que la solución de la ecuación es 6. Para comprobarlo, basta con introducir 6 en la ecuación original de la siguiente manera:

( 3 × 6 ) - 6 = 12

A estas alturas, ya te habrás dado cuenta de que el álgebra lineal consiste en utilizar atajos y técnicas rápidas para simplificar ecuaciones y encontrar variables desconocidas. El siguiente ejemplo muestra cómo a veces la variable x puede aparecer en varios lugares:

6 x + x = 27 - 2 x

Recuerda que el objetivo principal es tener x en un lado de la ecuación y el resto en el otro lado:

6 x + x + 2 x = 27

Sumando las constantes de x obtienes lo siguiente:

9 x = 27

El último paso es dividir por 9 para que sólo te quede x :

x = 3

Ahora puedes comprobarlo sustituyendo x por 3 en la ecuación original. Verás que ambos lados de la ecuación son iguales.

Nota

Aunque esta sección es bastante sencilla, contiene los fundamentos básicos que necesitas para empezar a avanzar en álgebra y cálculo. Los puntos clave de esta sección son los siguientes:

  • Una ecuación lineal es una representación en la que el mayor exponente de cualquier variable es uno. Esto significa que no hay variables elevadas a la potencia de dos o más.
  • Una recta de ecuación lineal es recta cuando se traza en un gráfico.
  • La aplicación de las ecuaciones lineales en la modelización de una amplia gama de sucesos del mundo real las hace cruciales en muchas ramas de las matemáticas y la investigación. También se utilizan ampliamente en el aprendizaje automático.
  • Resolver x es el proceso de encontrar para ella un valor que iguale ambos lados de la ecuación.
  • Al realizar una operación (como sumar una constante o multiplicar por una constante) en un lado de la ecuación, tienes que hacerla también en el otro lado.

Sistemas de ecuaciones

Un sistema de ecuaciones es cuando hay dos o más ecuaciones que trabajan juntas para resolver una o más variables. Por tanto, en lugar de la ecuación única habitual:

x + 10 = 20

Los sistemas de ecuaciones se parecen a los siguientes

x + 10 = 20

y + 2 x = 10

Los sistemas de ecuaciones son útiles en el aprendizaje automático y se utilizan en muchos de sus aspectos.

Veamos el sistema de ecuaciones anterior del principio de esta sección y resolvámoslo gráficamente. Trazar las dos funciones puede darnos directamente la solución. El punto de intersección es la solución. Por tanto, las coordenadas de la intersección(x, y) se refieren a las soluciones de x e y, respectivamente.

De la Figura 4-6, parece que x = 10 e y = -10. Introduciendo estos valores en sus respectivas variables se obtiene la respuesta correcta:

10 + 10 = 20

(-10) + (2 × 10) = 10

Figura 4-6. Gráfica que muestra las dos funciones y su intersección (solución)

Como las funciones son lineales, resolverlas puede dar uno de estos tres resultados:

  1. Sólo hay una solución para cada variable.
  2. No hay solución. Esto ocurre cuando las funciones son paralelas (esto significa que nunca se cruzan).
  3. Hay un número infinito de soluciones. Esto ocurre cuando, por simplificación, ambas funciones son iguales (ya que todos los puntos caen sobre la recta).

Antes de pasar a la resolución de sistemas de ecuaciones utilizando el álgebra, veamos visualmente cómo puede no haber solución y cómo puede haber un número infinito de soluciones. Considera el siguiente sistema:

2 x = 10

4 x = 20

La Figura 4-7 representa las dos juntas. Como son exactamente la misma ecuación, caen sobre la misma recta. En realidad, en la Figura 4-7 hay dos rectas, pero como son iguales, no se distinguen. A cada x de la recta le corresponde una y.

Figura 4-7. Gráfica que muestra las dos funciones y sus infinitas intersecciones

Considera ahora el siguiente sistema:

3 x = 10

6 x = 10

La figura 4-8 muestra cómo nunca se cruzan, lo cual es intuitivo, ya que no puedes multiplicar el mismo número (representado por la variable x) por números diferentes y esperar obtener el mismo resultado.

Figura 4-8. Gráfica que muestra las dos funciones y su intersección imposible

Los métodos algebraicos se utilizan cuando hay más de dos variables, ya que no pueden resolverse mediante gráficas. Se trata principalmente de dos métodos: la sustitución y la eliminación.

La sustitución se utiliza cuando puedes sustituir el valor de una variable en una ecuación e introducirlo en la segunda ecuación. Considera el siguiente ejemplo:

x + y = 2

10 x + y = 10

El método más sencillo es reordenar la primera ecuación de modo que tengas y en términos de x:

y = 2 - x

10 x + ( 2 - x ) = 10

Resolver x en la segunda ecuación resulta sencillo:

10 x + ( 2 - x ) = 10 10 x + 2 - x = 10 10 x - x = 10 - 2 9 x = 8 x = 8 9 x = 0 . 8889

Ahora que has encontrado el valor de x, puedes encontrar fácilmente y introduciendo el valor de x en la primera ecuación:

0 . 8889 + y = 2 y = 2 - 0 . 8889 y = 1 . 111

Para comprobar si tu solución es correcta, puedes introducir los valores de x e y en ambas fórmulas:

0 . 8889 + 1 . 111 = 2 ( 10 × 0 . 8889 ) + 1 . 111 = 10

Gráficamente, esto significa que las dos ecuaciones se intersecan en (0,8889, 1,111). Esta técnica puede utilizarse con más de dos variables. Sigue el mismo proceso hasta que las ecuaciones se hayan simplificado lo suficiente como para darte las respuestas. El problema de la sustitución es que puede llevar algún tiempo cuando se trata de más de dos variables.

La eliminación es una alternativa más rápida. Se trata de eliminar variables hasta que sólo quede una. Considera el siguiente ejemplo:

2 x + 4 y = 20 3 x + 2 y = 10

Observando que hay 4y y 2y, es posible multiplicar la segunda ecuación por 2 para poder restar las ecuaciones entre sí (lo que eliminará la variable y ):

2 x + 4 y = 20 6 x + 4 y = 20

Restando las dos ecuaciones entre sí se obtiene el resultado siguiente:

- 4 x = 0 x = 0

Por tanto, x = 0. Gráficamente, esto significa que se cruzan siempre que x = 0 (exactamente en la línea vertical y ). Introduciendo el valor de x en la primera fórmula se obtiene y = 5:

( 2 × 0 ) + 4 y = 20 4 y = 20 y = 5

Del mismo modo, la eliminación también puede resolver ecuaciones con tres variables. La elección entre sustitución y eliminación depende del tipo de ecuación que se resuelva.

Nota

Los puntos clave de esta sección son los siguientes:

  • Los sistemas de ecuaciones resuelven variables juntas. Son muy útiles en el aprendizaje automático y se utilizan en algunos algoritmos.
  • Se prefieren las soluciones gráficas para los sistemas sencillos de ecuaciones.
  • La resolución de sistemas de ecuaciones mediante el álgebra implica el uso de métodos de sustitución y eliminación.
  • La sustitución es preferible cuando el sistema es sencillo, pero la eliminación es el camino a seguir cuando el sistema es un poco más complejo.

Trigonometría

La trigonometría explorael comportamiento de lo que se conoce como funciones trigonométricas, que relacionan los ángulos de un triángulo con las longitudes de sus lados. El triángulo más utilizado es el triángulo rectángulo, que tiene un ángulo a 90°. La figura 4-9 muestra un ejemplo de triángulo rectángulo.

Figura 4-9. Un triángulo rectángulo

Definamos las principales características de un triángulo rectángulo:

  • El lado más largo del triángulo se llama hipotenusa.
  • El ángulo situado delante de la hipotenusa es el ángulo recto (el que está a 90°).
  • Según el otro ángulo (θ) que elijas (de los dos que quedan), la recta entre este ángulo y la hipotenusa se llama adyacente y la otra recta se llama opuesta.
Nota

Las funciones trigonométricas son funciones matemáticas que se utilizan para relacionar los ángulos de un triángulo rectángulo con las razones de sus lados. Tienen diversas aplicaciones en campos como la geometría, la física y la ingeniería, entre otros. Ayudan a analizar y resolver problemas relacionados con ángulos, distancias, oscilaciones y formas de onda, entre otras cosas.

Las funciones trigonométricas son simplemente la división de una recta por otra recta. Recuerda que en un triángulo hay tres rectas (hipotenusa, opuesta y adyacente). Las funciones trigonométricas son las siguientes:

s i n ( θ ) = Enfrente Hipotenusa

c o s ( θ ) = Adyacente Hipotenusa

t a n ( θ ) = Enfrente Adyacente

A partir de las tres funciones trigonométricas anteriores, es posible extraer una identidad trigonométrica que alcance tan a partir de sen y cos utilizando álgebra lineal básica:

t a n ( θ ) = sin(θ) cos(θ)

Las funciones hiperbólicas son similares a las funciones trigonométricas, pero se definen utilizando funciones exponenciales. Antes de comprender las funciones hiperbólicas, hay que entender el número de Euler.

Nota

Esta parte sobre las funciones hiperbólicas es interesante porque constituye la base de lo que se conoce como funciones de activación, un concepto clave en las redes neuronales, protagonistas de los modelos de aprendizaje profundo. Las verás en detalle en el capítulo 8.

El número de Euler (denotado como e) es uno de los números más importantes de las matemáticas. Es un número irracional, es decir, un número real que no puede expresarse como fracción. La palabra irracional proviene del hecho de que no existe una razón para expresarlo; no tiene nada que ver con su personalidad. El número de Euler es también la base del logaritmo natural ln, y sus primeros dígitos son 2,71828. Una de las mejores aproximaciones para obtener e es la siguiente fórmula:

e = (1+1 n) n

Aumentando n en la fórmula anterior, te acercarás al valor de e. El número de Euler tiene muchas propiedades interesantes, entre las que destaca el hecho de que su pendiente es su propio valor. Considera la siguiente función (también llamada función de exponente natural):

f ( x ) = e x

En cualquier punto, la pendiente de la función tiene el mismo valor. Observa la Figura 4-10.

Figura 4-10. Gráfica de la función exponente natural
Nota

Quizá te preguntes por qué explico los exponentes y los logaritmos en este libro. Hay principalmente dos razones para ello:

  • Los exponentes y, sobre todo, el número de Euler se utilizan en las funciones hiperbólicas, donde tanh(x) es una de las principales funciones de activación de las redes neuronales, un tipo de máquina y modelo de aprendizaje profundo.
  • Los logaritmos son útiles en las funciones de pérdida, un concepto que verás en capítulos posteriores.

Las funciones hiperbólicas utilizan la función exponente natural y se definen como sigue:

s i n h ( x ) = e x -e -x 2

c o s h ( x ) = e x +e -x 2

t a n h ( x ) = e x -e -x e x +e -x

Entre las características clave de tanh(x) están la no linealidad, la limitación entre [-1, 1] y el hecho de que está centrada en cero. La figura 4-11 muestra la gráfica de tanh(x).

Figura 4-11. Gráfica de tanh(x) que muestra cómo se limita entre -1 y 1
Nota

Los puntos clave de esta sección son los siguientes:

  • La trigonometría es un campo que explora el comportamiento de las funciones trigonométricas que relacionan los ángulos de un triángulo con las longitudes de sus lados.
  • Una identidad trigonométrica es un atajo que relaciona las funciones trigonométricas entre sí.
  • El número e de Euler es irracional y es la base del logaritmo natural. Tiene muchas aplicaciones en el crecimiento exponencial y en las funciones hiperbólicas.
  • La función tangente hiperbólica se utiliza en las redes neuronales, un algoritmo de aprendizaje profundo.

Cálculo

Como ya se ha dicho, el cálculo es una rama de las matemáticas que se centra en el estudio de las tasas de cambio y acumulación de cantidades. Consta de dos ramas principales: el cálculo diferencial (que se ocupa de las derivadas) y el cálculo integral (que se ocupa de la integración). En esta sección se presentan brevemente ambos tipos de cálculo, al tiempo que se tratan temas como los límites y la optimización.

Límites y continuidad

El cálculo funciona haciendo visible lo infinitesimalmente pequeño.

-Keith Devlin

Los límites no tienen por qué ser una pesadilla. Siempre me ha parecido que se malinterpretan. En realidad, son bastante fáciles de conseguir. Pero primero, necesitas motivación, y ésta viene de conocer el valor añadido de aprender límites.

Comprender los límites es importante en los modelos de aprendizaje automático por muchas razones:

Optimización

En métodos de optimización como el descenso de gradiente, se pueden utilizar límites para regular el tamaño del paso y garantizar la convergencia a un mínimo local.

Selección de características

Los límites pueden utilizarse para clasificar la importancia de varias características del modelo y realizar la selección de características, lo que puede hacer que el modelo sea más sencillo y funcione mejor.

Análisis de sensibilidad

La sensibilidad de un modelo de aprendizaje automático a los cambios en los datos de entrada y su capacidad de generalización a nuevos datos pueden utilizarse para examinar el comportamiento de un modelo.

Además, los límites se utilizan en conceptos de cálculo más avanzados que aprenderás en breve.

El objetivo principal de los límites es conocer el valor de una función cuando está indefinida. Pero, ¿qué es una función indefinida? Cuando tienes una función que da una solución que no es posible (como dividir por cero), los límites te ayudan a eludir este problema para conocer el valor de la función en ese punto. Así pues, el objetivo de los límites es resolver funciones incluso cuando son indefinidas.

Recuerda que la solución de una función que toma x como entrada es un valor en el eje y. La figura 4-12 muestra una gráfica lineal de la siguiente función:

f ( x ) = x + 2

Figura 4-12. Gráfica de la función f(x) = x + 2

La solución de la función en la gráfica es la que se encuentra sobre la recta lineal teniendo en cuenta el valor de x en cada momento.

¿Cuál sería la solución de la función (el valor de y) cuando x = 4? Claramente, la respuesta es 6, ya que sustituyendo el valor de x por 4 se obtiene 6:

f ( 4 ) = 4 + 2 = 6

Pensar en esta solución en términos de límites sería como preguntar por la solución de la función a medida que x se acerca a 4 por ambos lados (el lado negativo/ decreciente y el lado positivo/aumentante). La Tabla 4-1 simplifica este dilema.

Tabla 4-1. Hallar x cuando se acerca a 4
f(x) x
5.998 3.998
5.999 3.999
6.000 4.000
6.001 4.001
6.002 4.002

Acercarse desde el lado negativo equivale a sumar una fracción de un número por debajo de 4 y analizar el resultado cada vez. Del mismo modo, aproximarse desde el lado positivo equivale a eliminar una fracción de un número mientras se está por encima de 4 y analizar el resultado cada vez. La solución parece converger a 6 a medida que x se acerca a 4. Ésta es la solución del límite.

Los límites de la forma general se escriben siguiendo esta convención:

lim xa f ( x ) = L

La forma general del límite se lee así: a medida que te acercas a a lo largo del eje x(ya sea por el lado positivo o por el negativo), la función f(x ) se acerca al valor de L.

Nota

La idea del límite establece que, a medida que te bloqueas y te acercas a un número desde cualquier lado (negativo o positivo), la solución de la ecuación se aproxima a un determinado número, y la solución del límite es ese número.

Como ya hemos dicho, los límites son útiles cuando el punto exacto de la solución no está definido utilizando la forma convencional de sustitución.

Un límite unilateral es diferente del límite general. Con un límite izquierdo, buscas el límite que va del lado negativo al lado positivo, y con un límite derecho, buscas el límite que va del lado positivo al lado negativo. El límite general existe cuando los dos límites unilaterales existen y son iguales. Por tanto, las afirmaciones anteriores se resumen como sigue:

  • El límite izquierdo existe.
  • El límite derecho existe.
  • El límite izquierdo es igual al límite derecho.

El límite izquierdo se define como sigue:

lim xa - f ( x ) = L

El límite derecho se define como sigue:

lim xa + f ( x ) = L

Considera la siguiente ecuación:

f ( x ) = x 3 -27 x-3

¿Cuál es la solución de la función cuando x = 3? La sustitución conduce a la siguiente cuestión:

f ( 3 ) = 3 3 -27 3-3 = 27-27 3-3 = 0 0 = Sin definir

Sin embargo, pensando en esto en términos de límites, como se muestra en la Tabla 4-2, parece que a medida que te acercas a x = 3, ya sea por el lado izquierdo o por el derecho, la solución tiende a acercarse a 27.

Tabla 4-2. Hallar x a medida que se acerca a 3
f(x) x
2.9998 26.9982
2.9999 26.9991
3.0000 Sin definir
3.0001 27.0009
3.0002 27.0018

Gráficamente, esto puede verse como una discontinuidad en el gráfico a lo largo de ambos ejes. La discontinuidad existe en la recta alrededor de la coordenada (3, 27). Algunas funciones no tienen límites. Por ejemplo, ¿cuál es el límite de la siguiente función cuando x se acerca a 5?

lim x5 1 x-5

Observando la Tabla 4-3, parece que a medida que x se aproxima a 5, los resultados divergen mucho al aproximarse desde ambos lados. Por ejemplo, aproximándose desde el lado negativo, el límite de 4,9999 es -10.000, y desde el lado positivo, el límite de 5,0001 es 10.000.

Tabla 4-3. Hallar x a medida que se acerca a 5
f(x) x
4.9998 -5000
4.9999 -10000
5.0000 Sin definir
5.0001 10000
5.0002 5000

Recuerda que para que exista el límite general, ambos límites unilaterales deben existir y deben ser iguales, lo que no ocurre en este caso. Haciendo una gráfica, se obtiene la Figura 4-13, que puede ayudarte a comprender por qué no existe el límite.

Figura 4-13. Gráfica de la función que demuestra que el límite no existe

Pero, ¿y si la función que quieres analizar tiene este aspecto?

lim x5 1 |x-5|

Observando la Tabla 4-3, parece que a medida que x se aproxima a 5, los resultados se aceleran rápidamente al divergir hasta un número muy grande denominado infinito (∞):

f ( x ) = 1 |x-5|

Echa un vistazo a la Tabla 4-4:

Tabla 4-4. Otro intento de encontrar x a medida que se acerca a 5
f(x) x
4.99997 334333.33
4.99998 50000
4.99999 100000
4.9999999 10000000
5.00000 Sin definir
5.0000001 10000000
5.00001 100000
5.00002 50000
5.00003 334333.33

A cada pequeño paso, x se aproxima a 5, e y se aproxima al infinito positivo. Por tanto, la respuesta a la pregunta del límite es infinito positivo (+∞). La Figura 4-14 muestra la gráfica de la función. Observa cómo ambos lados aumentan de valor a medida que x se acerca a 5.

Figura 4-14. Gráfica de la función que demuestra que el límite existe a medida que x se acerca a 5

Las funcionescontinuas son las que se dibujan sin huecos ni agujeros en la gráfica, mientras que las funciones discontinuas contienen tales huecos y agujeros. Esto suele significar que estas últimas contienen puntos en los que la solución de las funciones no está definida y puede ser necesario aproximarla mediante límites. Por tanto, continuidad y límites son dos conceptos relacionados.

Pasemos a resolver límites; al fin y al cabo, no vas a crear una tabla cada vez y analizar los resultados subjetivamente para encontrar los límites. Hay tres formas de resolver límites:

  • Sustitución: Es la regla más sencilla y suele utilizarse en primer lugar.
  • Factorización: Se produce cuando la sustitución no funciona.
  • Métodos conjugados: Esta solución llega después de que los dos primeros no funcionen.

La sustitución consiste simplemente en introducir el valor al que se aproxima x . Básicamente, se trata de funciones que tienen soluciones en las que se utilizan los límites. Tomemos el siguiente ejemplo:

lim x5 x + 10 - 2 x

Utilizando la sustitución, el límite de la función se halla de la siguiente manera:

lim x5 x + 10 - 2 x = 5 + 10 - ( 2 × 5 ) = 5

Por tanto, la respuesta al límite es 5.

La factorización es la siguiente opción cuando la sustitución no funciona (por ejemplo, el límite es indefinido después de introducir el valor de x en la función). La factorización consiste en cambiar la forma de la ecuación mediante factores, de forma que la ecuación deje de estar indefinida al utilizar la sustitución. Tomemos el siguiente ejemplo:

lim x-6 (x+6)(x 2 -x+1) x+6

Si intentas la sustitución, obtendrás un valor indefinido como el siguiente:

lim x-6 (x+6)(x 2 -x+1) x+6 = (-6+6)((-6) 2 -(-6)+1) -6+6 = 0 0 = Sin definir

La factorización puede ayudar en este caso. Por ejemplo, el nominador se multiplica por(x + 6) y luego se divide por(x + 6). Simplificando esto mediante la cancelación de los dos términos se podría obtener una solución:

lim x-6 (x+6)(x 2 -x+1) x+6 = lim x-6 x 2 - x + 1

Ahora que ya está hecha la factorización, puedes volver a intentar la sustitución:

lim x-6 x 2 - x + 1 = (-6) 2 - ( - 6 ) + 1 = 43

Por tanto, el límite de la función cuando x tiende a -6 es 43.

Formar un conjugado es la siguiente opción cuando la sustitución y la factorización no funcionan. Un conjugado se forma simplemente cambiando los signos entre dos variables. Por ejemplo, el conjugado de x + y es x - y. La forma de hacerlo en el caso de una fracción es multiplicar el nominador y el denominador por el conjugado de uno de ellos (prefiriendo utilizar el conjugado del término que tenga raíz cuadrada, ya que se anulará). Considera el siguiente ejemplo:

lim x9 x-9 x-3

Al multiplicar ambos términos por el conjugado del denominador, habrás empezado a utilizar el método del conjugado para resolver el problema:

lim x9 x-9 x-3 ( x+3 x+3 )

Teniendo en cuenta la multiplicación y simplificando después, se obtiene lo siguiente:

lim x9 (x-9)(x+3) (x-3)(x+3)

Te encontrarás con la siguiente situación familiar:

lim x9 (x-9)(x+3) x-9

lim x9 x + 3

Ahora la función está lista para la sustitución:

lim x9 9 + 3 = 3 + 3 = 6

Por tanto, la solución de la función es 6. Como ves, a veces hay que trabajar las ecuaciones antes de que estén listas para la sustitución.

Nota

Los puntos clave de esta sección son los siguientes:

  • Los límites ayudan a encontrar soluciones para funciones que pueden ser indefinidas en determinados puntos.
  • Para que exista el límite general, deben existir los dos límites unilaterales y deben ser iguales.
  • Hay formas de hallar el límite de una función, en particular la sustitución, la factorización y la formación del conjugado.

Derivados

Una derivada mide el cambio en una función dado un cambio de una o más de sus entradas. En otras palabras, es la tasa de cambio de una función en un punto dado.

Tener una sólida comprensión de los derivados es importante en la construcción de modelos de aprendizaje automático, por múltiples razones:

Optimización

Para minimizar la función de pérdida, los métodos de optimización emplean derivadas para determinar la dirección del descenso más pronunciado y modificar los parámetros del modelo .

Retropropagación

Para ejecutar el descenso de gradiente en el aprendizaje profundo, la técnica de retropropagación utiliza derivadas para calcular los gradientes de la función de pérdida con respecto a los parámetros del modelo.

Ajuste de hiperparámetros

Para mejorar el rendimiento del modelo, se utilizan derivadas para el análisis de sensibilidad y el ajuste de los hiperparámetros.

No olvides lo que aprendiste en el apartado anterior sobre límites, ya que necesitarás estos conocimientos también para este apartado. El cálculo trata principalmente de derivadas e integrales. En este apartado se tratan las derivadas y sus usos.

Puedes considerar derivadas a las funciones que representan (o modelan) la pendiente de otra función en algún punto. Una pendiente es una medida de la posición de una recta respecto a una recta horizontal. Una pendiente positiva indica una línea que se mueve hacia arriba, mientras que una pendiente negativa indica una línea que se mueve hacia abajo.

Derivados y pendientes son conceptos relacionados, pero no son lo mismo. He aquí la principal diferencia entre ambos:

Pendiente

La pendiente mide la inclinación de una recta. Es la relación entre el cambio en el eje y y el cambio en el eje x.

Derivado

La derivada describe la velocidad de cambio de una función dada. Cuando la distancia entre dos puntos de una función se aproxima a cero, la derivada de esa función en ese punto es el límite de la pendiente de la recta tangente.

Antes de explicar los derivados en términos sencillos y mostrar algunos ejemplos, veamos sus definiciones formales:

f ' ( x ) = lim h0 f(x+h)-f(x) h

La ecuación constituye la base de la resolución de derivadas, aunque hay muchos atajos que aprenderás. Intentemos hallar la derivada de una función utilizando la definición formal. Considera la siguiente ecuación:

f ( x ) = x 2 + 4 x - 2

Para hallar la derivada, introduce f(x) en la definición formal y luego resuelve el límite:

f ' ( x ) = lim h0 f(x+h)-f(x) h

Para simplificar las cosas, vamos a encontrar f(x + h) para que sea más fácil introducirla en la definición formal:

f ( x + h ) = (x+h) 2 + 4 ( x + h ) - 2

f ( x + h ) = x 2 + 2 x h + h 2 + 4 x + 4 h - 2

Ahora introduzcamos f(x + h) en la definición:

f ' ( x ) = lim h0 x 2 +2xh+h 2 +4x+4h-2-x 2 -4x+2 h

Observa que hay muchos términos que pueden simplificarse para que la fórmula resulte más clara. Recuerda que de momento intentas hallar el límite, y la derivada se halla después de resolver el límite:

f ' ( x ) = lim h0 2xh+h 2 +4h h

La división por h ofrece más posibilidades de simplificación, ya que puedes dividir todos los términos del numerador por el denominador h:

f ' ( x ) = lim h0 2 x + h + 4

Ahora toca resolver el límite. Como la ecuación es sencilla, el primer intento es por sustitución, que, como has adivinado, es posible. Sustituyendo la variable h y haciéndola cero (según el límite), te queda lo siguiente:

f ' ( x ) = 2 x + 4

Es la derivada de la función original f(x). Si quieres hallar la derivada de la función cuando x = 2, sólo tienes que introducir 2 en la función derivada:

f ' ( 2 ) = 2 ( 2 ) + 4 = 8

La Figura 4-15 muestra la gráfica de la función original con la derivada (la recta). Observa que f'(2) está exactamente en 8. La pendiente de f(x) cuando x = 2 es 8.

Figura 4-15. La f(x) original con su derivada f'(x)
Nota

Observa que cuando f(x) toca fondo y empieza a subir, f'(x) cruza la línea cero.

Es poco probable que utilices la definición formal cada vez que quieras hallar una derivada. Hay reglas de derivación que te permiten ahorrar mucho tiempo mediante atajos. La primera regla se denomina regla de la potencia, que es una forma de hallar la derivada de funciones con exponentes.

Es habitual referirse también a las derivadas utilizando esta notación (que es lo mismo que f'(x)):

dy dx

La regla de la potencia para hallar derivadas es la siguiente:

dy dx ( a x n ) = ( a . n ) x n-1

Básicamente, esto significa que la derivada se halla multiplicando la constante por el exponente y restando después 1 al exponente. He aquí un ejemplo:

f ( x ) = x 4

f ' ( x ) = ( 1 × 4 ) x (4-1) = 4 x 3

Recuerda que si no hay ninguna constante unida a la variable, significa que la constante es igual a 1. He aquí un ejemplo más complejo con el mismo principio:

f ( x ) = 2 x 2 + 3 x 7 - 2 x 3

f ' ( x ) = 4 x + 21 x 6 - 6 x 2

Cabe señalar que la regla también se aplica a las constantes, aunque no satisfagan la forma general de la regla de potencias. La derivada de una constante es cero. Aunque ayuda saber por qué, antes debes conocer el siguiente concepto matemático:

x 0 = 1

Dicho esto, puedes imaginar que las constantes siempre se multiplican por x a la potencia de cero (ya que al hacerlo no cambia su valor). Ahora bien, si quieres hallar la derivada de 17, harías lo siguiente

17 = 17 x 0 = ( 0 × 17 ) x 0-1 = 0 x -1 = 0

Como sabes, cualquier cosa multiplicada por cero devuelve cero como resultado. Esto da la siguiente regla de las constantes para las derivadas:

dy dx ( a ) = 0

Sigue la misma lógica cuando encuentres fracciones o números negativos en los exponentes.

La regla del producto de las derivadas es útil cuando hay dos funciones multiplicadas entre sí. La regla del producto es la siguiente:

dy dx [ f ( x ) g ( x ) ] = f ' ( x ) g ( x ) + f ( x ) g ' ( x )

Tomemos un ejemplo y hallemos la derivada utilizando la regla del producto:

h ( x ) = ( x 2 + 2 ) ( x 3 + 1 )

La ecuación puede segmentarse claramente en dos términos, f(x) y g(x), de la siguiente manera:

f ( x ) = ( x 2 + 2 )

g ( x ) = ( x 3 + 1 )

Vamos a hallar las derivadas de los dos términos antes de aplicar la regla del producto. Observa que hallar la derivada de f(x) y g(x) es fácil una vez que comprendes la regla de la potencia:

f ' ( x ) = 2 x

g ' ( x ) = 3 x 2

Al aplicar la regla del producto, deberías obtener lo siguiente:

h ' ( x ) = ( x 2 + 2 ) ( 3 x 2 ) + ( 2 x ) ( x 3 + 1 )

h ' ( x ) = 3 x 4 + 6 x 2 + 2 x 4 + 2 x

h ' ( x ) = 5 x 4 + 6 x 2 + 2 x

La figura 4-16 muestra la gráfica de h(x) y h'(x).

Figura 4-16. El original h(x) con su derivada h'(x)

Centrémonos ahora en la regla del cociente, que trata de la división de dos funciones. La definición formal es la siguiente:

dy dx [ f(x) g(x) ] = f ' (x)g(x)-f(x)g ' (x) [g(x)] 2

Apliquémoslo a la siguiente función:

f ( x ) = x 2 -x+1 x 2 +1

Como de costumbre, es mejor empezar por hallar las derivadas de f(x) y g(x), que en este caso están claramente separadas, siendo f(x) el nominador y g(x) el denominador. Al aplicar la regla del cociente, deberías obtener lo siguiente:

f ' ( x ) = (2x-1)(x 2 +1)-(x 2 -x+1)(2x) (x 2 +1) 2

f ' ( x ) = 2x 3 +2x-x 2 -1-2x 3 +2x 2 -2x (x 2 +1) 2

f ' ( x ) = x 2 -1 (x 2 +1) 2

Las derivadas exponenciales tratan de la regla de la potencia aplicada a constantes. Observa la siguiente ecuación. ¿Cómo hallarías su derivada?

f ( x ) = a x

En lugar del habitual exponente variable-base-constante, es exponente constante-base-variable. Esto se trata de forma diferente cuando se intenta calcular la derivada. La definición formal es la siguiente

dy dx a x = a x ( ln a )

El siguiente ejemplo muestra cómo se hace:

dy dx 4 x = 4 x ( ln 4 )

El número de Euler, mencionado anteriormente, tiene una derivada especial. Cuando se trata de hallar la derivada de e, la respuesta es interesante:

dy dx e x = e x ( ln e ) = e x

Esto se debe a que la función logarítmica natural y la función exponencial son inversas entre sí, por lo que el término ln e es igual a 1. Por tanto, la derivada de la función exponencial e es ella misma.

Paralelamente, vamos a hablar de las derivadas logarítmicas. A estas alturas, ya deberías saber qué son los exponentes y los logaritmos. La definición general de ambos tipos de logaritmos es la siguiente:

dy dx registro a x = 1 xlna

dy dx ln x = registro e x = 1 xlne = 1 x

Observa cómo en la función derivada segunda del logaritmo natural aparece de nuevo el término ln e, lo que facilita bastante la simplificación, ya que es igual a 1.

Toma el siguiente ejemplo:

f ( x ) = 7 l o g 2 ( x )

Utilizando la definición formal, la derivada de esta función logarítmica es la siguiente:

f ' ( x ) = 7 ( 1 xln2 ) = 7 xln2

Nota

El logaritmo log tiene base 10, pero el logaritmo natural ln tiene base e (~2,7182).

En realidad, el logaritmo natural y la función logarítmica están relacionados linealmente mediante una simple multiplicación. Si conoces el logaritmo de la constante a, puedes hallar su logaritmo natural ln multiplicando el logaritmo de a por 2,4303.

Un concepto importante en las derivadas es la regla de la cadena. Volvamos a la regla de la potencia, que trata de exponentes en variables. Recuerda la siguiente fórmula para hallar la derivada:

dy dx ( a x n ) = ( a . n ) x n-1

Ésta es una versión simplificada porque sólo hay x, pero la realidad es que debes multiplicar por la derivada del término bajo el exponente. Hasta ahora, sólo has visto x como variable bajo el exponente. La derivada de x es 1, por eso se simplifica y se hace invisible. Sin embargo, con funciones más complejas como ésta:

f ( x ) = (4x+1) 2

La derivada de la función se halla siguiendo estos dos pasos:

  1. Halla la derivada de la función exterior sin tocar la función interior.
  2. Halla la derivada de la función interior y multiplícala por el resto de la función.

Por tanto, la solución es la siguiente (sabiendo que la derivada de 4x + 1 es sólo 4):

f ' ( x ) = 2 ( 4 x + 1 ) . 4

f ' ( x ) = 8 ( 4 x + 1 )

f ' ( x ) = 32 x + 8

Lo mismo ocurre con las funciones exponenciales. Toma el siguiente ejemplo:

f ( x ) = e x

f ' ( x ) = e x ( 1 ) = e x

En realidad, la regla de la cadena puede considerarse una regla maestra, ya que se aplica en cualquier parte, incluso en la regla del producto y la regla del cociente.

Hay más conceptos que dominar en las derivadas, pero como este libro no pretende ser una clase magistral completa de cálculo, al menos deberías conocer el significado de una derivada, cómo se encuentra, qué representa y cómo puede utilizarse en el aprendizaje automático y profundo.

Nota

Los puntos clave de esta sección son los siguientes:

  • Una derivada mide el cambio en una función dado un cambio de una o más de sus entradas.
  • La regla de la potencia se utiliza para hallar la derivada de una función elevada a una potencia.
  • La regla del producto se utiliza para hallar la derivada de dos funciones que se multiplican entre sí.
  • La regla del cociente se utiliza para hallar la derivada de dos funciones divididas entre sí.
  • La regla de la cadena es la regla principal utilizada en la diferenciación (que significa el proceso de hallar la derivada). Debido a su simplicidad, a menudo se pasa por alto.
  • Las derivadas desempeñan un papel crucial en el aprendizaje automático, como permitir las técnicas de optimización, ayudar al entrenamiento de modelos y mejorar la interpretabilidad de los modelos.

Integrales y Teorema Fundamental del Cálculo

Unaintegral es una operación que representa el área bajo la curva de una función dado un intervalo. Es la inversa de una derivada, por lo que también se denomina antiderivada.

El proceso de hallar integrales se denomina integración. Las integrales pueden utilizarse para hallar áreas por debajo de una curva, y se utilizan mucho en el mundo de las finanzas en ámbitos como la gestión de riesgos, la gestión de carteras, los métodos probabilísticos e incluso la valoración de opciones.

La forma más fácil de entender una integral es pensar en calcular el área bajo la curva de una función. Esto puede hacerse calculando manualmente los distintos cambios en el eje x, pero sumar estos cortes para hallar el área es un proceso tedioso. Aquí es donde las integrales vienen al rescate.

Ten en cuenta que una integral es la inversa de una derivada. Esto es importante porque implica una relación directa entre ambas. La definición básica de una integral es la siguiente:

f ( x ) d x = F ( X ) + C

En símbolo representa el integración proceso

f ( x ) es el derivado de el general función F ( x )

C representa el perdido constante en el diferenciación proceso

d x representa cortando a lo largo de x como it se acerca a cero

La ecuación anterior significa que la integral de f(x) es la función general F(x) más una constante C, que se perdió en el proceso de diferenciación inicial. He aquí un ejemplo para explicar mejor la necesidad de poner la constante.

Considera la siguiente función:

f ( x ) = x 2 + 5

Calculando su derivada, obtienes el resultado siguiente:

f ' ( x ) = 2 x

Ahora bien, ¿y si quisieras integrarla de modo que volvieras a la función original (que en este caso se representa con la letra mayúscula F(x) en lugar de f(x))?

2 x d x

Normalmente, visto el proceso de diferenciación (que significa tomar la derivada), devolverías 2 como exponente, lo que te da la siguiente respuesta:

2 x d x = x 2

Esto no se parece a la función original. Le falta la constante 5. Pero no tienes forma de saberlo, e incluso si supieras que hay una constante, no tendrías forma de saber cuál es: 1? 2? 677? Por eso se añade una constante C en el proceso de integración para representar la constante perdida. Por tanto, la respuesta al problema de integración es la siguiente:

2 x d x = x 2 + C

Nota

Hasta ahora, la discusión se ha limitado a las integrales indefinidas en las que el símbolo de integración está desnudo (lo que significa que no tiene límites). Verás lo que esto significa justo después de que definamos las reglas necesarias para completar la integración.

Para la función potencia (igual que la función anterior), la regla general de integración es la siguiente:

x a d x = x a+1 a+1 + C

Esto es mucho más sencillo de lo que parece. Sólo estás invirtiendo la regla de la potencia que has visto antes. Considera el siguiente ejemplo:

2 x 6 d x

2 x 6 d x = 2x 7 7 + C

2 x 6 d x = 2 7 x 7 + C

Para verificar tu respuesta, puedes hallar la derivada del resultado (utilizando la regla de la potencia):

F ( x ) = 2 7 x 7 + C

f ' ( x ) = ( 7 ) 2 7 x 7-1 + 0

f ' ( x ) = 2 x 6

Pongamos otro ejemplo. Considera el siguiente problema de integración:

2 d x

Naturalmente, utilizando la regla, deberías encontrar el siguiente resultado:

2 d x = 2 x + C

Pasemos a las integrales definidas, que son integrales con números arriba y abajo que representan intervalos bajo la curva de una función. Por tanto, las integrales indefinidas hallan el área bajo la curva en todas partes, y las integrales definidas están acotadas dentro de un intervalo dado por el punto a y el punto b. La definición general de integrales indefinidas es la siguiente:

a b f ( x ) d x = F ( B ) - F ( A )

Esto no puede ser más sencillo. Resolverás la integral, luego introducirás los dos números y restarás las dos funciones entre sí. Considera la siguiente evaluación de una integral (la resolución de la integral se denomina comúnmente evaluación de la integral):

0 6 3 x 2 - 10 x + 4 d x

El primer paso es comprender lo que se pide. A partir de la definición de integral, parece que hay que calcular el área comprendida entre [0, 2] en el eje x utilizando la función dada:

F ( x ) = ( [ x 3 - 5 x 2 + 4 x + C ] ) | 0 6

Para evaluar la integral en los puntos dados, basta con introducir los valores del siguiente modo:

F ( x ) = ( [ 6 3 - 5 (6) 2 + 4 ( 6 ) + C ] ) - ( [ 0 3 - 5 (0) 2 + 4 ( 0 ) + C ] )

F ( x ) = ( [ 216 - 180 + 24 + C ] ) - ( [ 0 - 0 + 0 + C ] )

F ( x ) = ( [ 60 + C ] ) - ( [ 0 + C ] )

F ( x ) = ( 60 - 0 )

F ( x ) = 60

Nota

La constante C siempre anulará las integrales indefinidas, así que puedes omitirla en este tipo de problemas.

Por tanto, el área por debajo de la gráfica de f(x) y por encima del eje x, así como entre [0, 6] en el eje x, es igual a 60 unidades cuadradas. A continuación se muestran algunas reglas generales sobre integrales (al fin y al cabo, se supone que este capítulo debe refrescar tus conocimientos o darte una comprensión básica de algunos conceptos matemáticos clave):

  • Hallar la integral de una constante:

    a d x = a x + C

  • Para hallar la integral de una variable:

    x d x = 1 2 x 2 + C

  • Para hallar la integral de un recíproco:

    1 x d x = ln | x | + C

  • Para hallar la integral de una exponencial:

    a x d x = a x ln(a) + C

    e x d x = e x + C

El teorema fundamental del cálculo relaciona las derivadas con las integrales. Esto significa que define las derivadas en términos de integrales y viceversa. El teorema fundamental del cálculo consta en realidad de dos partes:

Parte I

La primera parte del teorema fundamental del cálculo afirma que si tienes una función continua f(x), entonces la función original F(x) definida como la antiderivada de f(x) desde un punto de partida fijo a hasta x es una función diferenciable en todas partes desde a hasta x, y su derivada es simplemente f(x) evaluada en x.

Parte II

La segunda parte del teorema fundamental del cálculo afirma que si tienes una función f(x) que es continua sobre un cierto intervalo[a, b], y defines una nueva función F(x) como la integral de f(x) desde a hasta x, entonces la integral definida de f(x) sobre ese mismo intervalo[a, b ] puede calcularse como F(b) - F(a).

El teorema es útil en muchos campos, como la física y la ingeniería, pero la optimización y otros modelos matemáticos también se benefician de él. Algunos ejemplos del uso de integrales en los distintos algoritmos de aprendizaje pueden resumirse así:

Estimación de la densidad

Las integrales se utilizan en la estimación de la densidad, que forma parte de muchos algoritmos de aprendizaje automático, para calcular la función de densidad de probabilidad.

Aprendizaje por refuerzo

Las integrales se utilizan en el aprendizaje por refuerzo para calcular los valores esperados de las funciones de recompensa. El aprendizaje por refuerzo se trata en el Capítulo 10.

Nota

Los puntos clave de esta sección son los siguientes:

  • Las integrales también se conocen como antiderivadas y son lo contrario de las derivadas.
  • Las integrales indefinidas hallan el área bajo la curva en todas partes, mientras que las integrales definidas están acotadas dentro de un intervalo dado por el punto a y el punto b.
  • El teorema fundamental del cálculo es el puente entre las derivadas y las integrales.
  • En el aprendizaje automático, las integrales se utilizan para modelizar la incertidumbre, hacer predicciones y estimar los valores esperados.

Optimización

Varios algoritmos de aprendizaje automático y profundo dependen de técnicas de optimización para disminuir las funciones de error.

La optimización es el proceso de encontrar la mejor solución entre todas las posibles. La optimización consiste en encontrar los puntos más alto y más bajo de una función. La Figura 4-17 muestra la gráfica de la siguiente fórmula:

f ( x ) = x 4 - 2 x 2 + x

Figura 4-17. Gráfica de la función f ( x ) = x 4 - 2 x 2 + x

Existe un mínimo local cuando los valores a la derecha del eje x van disminuyendo hasta llegar a un punto en el que empiezan a aumentar. El punto no tiene por qué ser necesariamente el punto más bajo de la función, de ahí el nombre de local. En la Figura 4-17, la función tiene un mínimo local en el punto A.

Existe un máximo local cuando los valores a la derecha del eje x van aumentando hasta llegar a un punto en el que empiezan a disminuir. El punto no tiene por qué ser necesariamente el punto más alto de la función. En la Figura 4-17, la función tiene un máximo local en el punto B.

Existe un mínimo global cuando los valores a la derecha del eje x van disminuyendo hasta llegar a un punto en el que empiezan a aumentar. El punto debe ser el más bajo de la función, de ahí el nombre de global. En la Figura 4-17, la función tiene un mínimo global en el punto C.

Existe un máximo global cuando los valores a la derecha del eje x van aumentando hasta llegar a un punto en el que empiezan a disminuir. El punto debe ser el punto más alto de la función. En la Figura 4-17, no hay máximo global, ya que la función continuará infinitamente sin crear un punto máximo. Puedes ver claramente cómo la función acelera hacia arriba.

Cuando se trabaja con modelos de aprendizaje automático y profundo, el objetivo es encontrar los parámetros del modelo (o entradas) que minimicen lo que se conoce como función de pérdida (una función que da el error de las previsiones). Si la función de pérdida es convexa, las técnicas de optimización deben encontrar los parámetros que tienden hacia el mínimo global donde se minimiza la función de pérdida.

Si la función de pérdida no es convexa, la convergencia no está garantizada, y puede que la optimización sólo conduzca a acercarse a un mínimo local, que es una parte del objetivo, pero esto deja el mínimo global, que es el objetivo final.

Pero, ¿cómo se encuentran estos mínimos y máximos? Veámoslo paso a paso:

  1. El primer paso es realizar la prueba de la primera derivada (que consiste en calcular la derivada de la función). A continuación, fijando la función igual a cero y resolviendo para x obtendremos lo que se conoce como puntos críticos. Los puntos críticos son los puntos en los que la función cambia de dirección (los valores dejan de ir en una dirección y empiezan a ir en otra). Por tanto, estos puntos son máximos y mínimos.
  2. El segundo paso consiste en realizar la prueba de la segunda derivada (que no es más que calcular la derivada de la derivada). Entonces, fijando la función igual a cero y resolviendo para x se obtendrá lo que se conoce como puntos de inflexión. Los puntos de inflexión muestran dónde la función es cóncava hacia arriba y dónde es cóncava hacia abajo.

En otras palabras, los puntos críticos son aquellos en los que la función cambia de dirección, y los puntos de inflexión son aquellos en los que la función cambia de concavidad. La figura 4-18 muestra la diferencia entre una función cóncava hacia arriba y una función cóncava hacia abajo.

Cóncavo arriba función = x 2

Cóncavo abajo función = - x 2

Figura 4-18. Una función cóncava hacia arriba y una función cóncava hacia abajo

Los pasos para encontrar los extremos son los siguientes:

  1. Encuentra la primera derivada y ponla a cero.
  2. Resuelve la primera derivada para hallar x. Los valores se llaman puntos críticos, y representan los puntos en los que la función cambia de dirección.
  3. Introduce en la fórmula los valores que estén por debajo o por encima de los puntos críticos. Si el resultado de la primera derivada es positivo, significa que está aumentando alrededor de ese punto, y si es negativo, significa que está disminuyendo alrededor de ese punto.
  4. Encuentra la segunda derivada y ponla a cero.
  5. Resuelve la segunda derivada para hallar x. Los valores, llamados puntos de inflexión, representan los puntos en los que la concavidad cambia de arriba a abajo y viceversa.
  6. Introduce en la fórmula los valores que estén por debajo o por encima de los puntos de inflexión. Si el resultado de la segunda derivada es positivo, significa que hay un mínimo en ese punto, y si es negativo, significa que hay un máximo en ese punto.

Es importante comprender que la prueba de la primera derivada se refiere a los puntos críticos y la prueba de la segunda derivada se refiere a los puntos de inflexión. El siguiente ejemplo halla los extremos de la función:

f ( x ) = x 2 + x + 4

El primer paso es tomar la primera derivada, ponerla a cero y resolver para x:

f ' ( x ) = 2 x + 1

2 x + 1 = 0

x = - 1 2

El resultado muestra que hay un punto crítico en ese valor. Halla ahora la segunda derivada:

f '' ( x ) = 2

A continuación, hay que introducir el punto crítico en la fórmula de la segunda derivada:

f '' ( - 1 2 ) = 2

La segunda derivada es positiva en el punto crítico. Esto significa que hay un mínimo local en ese punto.

En los próximos capítulos, verás técnicas de optimización más complejas, como el descenso de gradiente y el descenso de gradiente estocástico, que son bastante comunes en los algoritmos de aprendizaje automático. Ten en cuenta que no es necesario que entiendas completamente los detalles de la optimización y la resolución de las variables desconocidas, ya que los algoritmos lo harán por sí solos.

Nota

Los puntos clave de esta sección son los siguientes:

  • La optimización es el proceso de encontrar los extremos de la función.
  • Los puntos críticos son los puntos en los que la función cambia de dirección.
  • Los puntos de inflexión indican dónde la función es cóncava hacia arriba y dónde es cóncava hacia abajo.
  • Una función de pérdida es una función que mide el error de las previsiones en el aprendizaje automático predictivo.

Resumen

Los capítulos 2, 3 y 4 presentan los principales conceptos numéricos para ayudarte a empezar a entender los modelos básicos de aprendizaje automático y profundo. He hecho todos los esfuerzos razonables para simplificar al máximo los detalles técnicos. Sin embargo, te animo a que leas estos tres capítulos al menos dos veces para que todo lo que has aprendido se convierta en algo natural. También te animo a que investigues estos conceptos con mayor profundidad en otros materiales.

Naturalmente, el aprendizaje profundo requiere conocimientos más profundos en matemáticas, pero creo que con los conceptos de este capítulo, puedes empezar a sumergirte en la creación de algoritmos. Al fin y al cabo, vienen preconstruidos en paquetes y bibliotecas, y el objetivo de este capítulo era ayudarte a entender con qué estás trabajando. Es poco probable que construyas los modelos desde cero utilizando herramientas arcaicas.

A estas alturas, deberías haber adquirido una cierta comprensión de la ciencia de datos y de los requisitos matemáticos que te permitirán empezar cómodamente. Nos quedan dos temas por cubrir antes de que puedas empezar a construir tu primer modelo de aprendizaje automático: el análisis técnico y Python para la ciencia de datos.

1 Las matrices también pueden contener símbolos y expresiones, pero para simplificar, vamos a ceñirnos a los números.

Get Aprendizaje profundo para las finanzas now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.