Capítulo 12. Visión profunda por ordenador mediante redes neuronales convolucionales
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
Aunque el superordenador Deep Blue de IBM venció al campeón mundial de ajedrez Garry Kasparov en 1996, hasta hace poco los ordenadores no fueron capaces de realizar de forma fiable tareas aparentemente triviales, como detectar un cachorro en una foto o reconocer palabras habladas. ¿Por qué estas tareas nos resultan tan fáciles a los humanos? La respuesta reside en el hecho de que la percepción tiene lugar en gran medida fuera del ámbito de nuestra conciencia, dentro de módulos sensoriales especializados visuales, auditivos y de otro tipo en nuestro cerebro. En el momento en que la información sensorial llega a nuestra consciencia, ya está adornada con características de alto nivel; por ejemplo, cuando miras la foto de un perrito mono, no puedes elegir no ver al perrito, no fijarte en su monada. Tampoco puedes explicar cómo reconoces a un cachorro mono; simplemente es obvio para ti. Así pues, no podemos fiarnos de nuestra experiencia subjetiva: la percepción no es nada trivial, y para comprenderla debemos fijarnos en cómo funcionan nuestros módulos sensoriales.
Las redes neuronales convolucionales (CNN) surgieron del estudio de la corteza visual del cerebro, y se utilizan en el reconocimiento informático de imágenes desde la década de 1980. En los últimos 15 años, gracias al aumento ...