Capítulo 4. Extensiones
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
En el último capítulo, después de haber dedicado dos capítulos a razonar desde los primeros principios sobre qué son los modelos de aprendizaje profundo y cómo deberían funcionar, finalmente construimos nuestro primer modelo de aprendizaje profundo y lo entrenamos para resolver el problema relativamente sencillo de predecir el precio de la vivienda a partir de características numéricas sobre las casas. En la mayoría de los problemas del mundo real, sin embargo, entrenar con éxito modelos de aprendizaje profundo no es tan fácil: aunque estos modelos pueden concebiblemente encontrar una solución óptima a cualquier problema que pueda enmarcarse como un problema de aprendizaje supervisado, en la práctica suelen fallar, y de hecho hay pocas garantías teóricas de que una arquitectura de modelo dada encuentre de hecho una buena solución a un problema dado. Aun así, hay algunas técnicas bien conocidas que hacen que el entrenamiento de redes neuronales tenga más probabilidades de éxito; en ellas se centrará este capítulo.
Empezaremos en repasando lo que "intentan hacer" matemáticamente las redes neuronales: encontrar el mínimo de una función. Luego mostraré una serie de técnicas que pueden ayudar a las redes a conseguirlo, demostrando su eficacia en el clásico conjunto de datos MNIST de dígitos escritos a mano. Empezaremos con una función de pérdida ...