Capítulo 3. Visión de la imagen

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

En el Capítulo 2, vimos modelos de aprendizaje automático que tratan los píxeles como entradas independientes. Las capas tradicionales de redes neuronales totalmente conectadas funcionan mal en imágenes porque no aprovechan el hecho de que los píxeles adyacentes están altamente correlacionados (véase la Figura 3-1). Además, la conexión completa de varias capas no tiene en cuenta la naturaleza jerárquica 2D de las imágenes. Los píxeles cercanos entre sí trabajan juntos para crear formas (como líneas y arcos), y estas formas a su vez trabajan juntas para crear partes reconocibles de un objeto (como el tallo y los pétalos de una flor).

En este capítulo, lo remediaremos estudiando técnicas y arquitecturas de modelos que aprovechan las propiedades especiales de las imágenes.

Consejo

El código de este capítulo está en la carpeta 03_image_models del repositorio GitHub del libro. Proporcionaremos los nombres de archivo de los ejemplos de código y de los cuadernos cuando proceda.

Figura 3-1. Aplicar una capa totalmente conectada a todos los píxeles de una imagen trata los píxeles como entradas independientes e ignora que las imágenes tienen píxeles adyacentes que trabajan juntos para crear formas.

Incrustaciones preentrenadas

La red neuronal ...

Get Aprendizaje automático práctico para visión por ordenador now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.