Capitolo 3. Go Beyond the Basics: Rilevamento di caratteristiche nelle immagini
Questo lavoro è stato tradotto utilizzando l'AI. Siamo lieti di ricevere il tuo feedback e i tuoi commenti: translation-feedback@oreilly.com
Nel Capitolo 2 hai imparato come per iniziare a lavorare con la computer vision creando una semplice rete neurale che abbinava i pixel di ingresso del dataset Fashion MNIST a 10 etichette, ognuna delle quali rappresentava un tipo (o classe) di abbigliamento. Sebbene tu abbia creato una rete che era abbastanza brava a rilevare i tipi di abbigliamento, c'era un chiaro inconveniente. La rete neurale è stata addestrata su piccole immagini monocromatiche, ognuna delle quali conteneva un solo capo di abbigliamento e ogni capo era centrato nell'immagine.
Per portare il modello al livello successivo, è necessario che sia in grado di rilevare le caratteristiche delle immagini. Quindi, ad esempio, invece di guardare semplicemente i pixel grezzi dell'immagine, cosa succederebbe se potessimo filtrare le immagini fino agli elementi costitutivi? La corrispondenza di questi elementi, invece dei pixel grezzi, aiuterebbe il modello a rilevare il contenuto delle immagini in modo più efficace. Ad esempio, consideriamo il set di dati Fashion MNIST che abbiamo utilizzato nell'ultimo capitolo. Nel rilevare una scarpa, la rete neurale potrebbe essere stata attivata da molti pixel scuri raggruppati nella parte inferiore dell'immagine, che avrebbe visto come la suola della scarpa. Ma se ...