
508 | Apêndice A : Soluções dos Exercícios
cendente utilizando esses gradientes. Essa etapa de retropropagação é normalmente
executada milhares ou milhões de vezes usando muitos lotes de treinamento até que os
parâmetros do modelo convirjam para valores que (esperamos) minimizam a função
de custo. Para calcular os gradientes, a retropropagação utiliza autodiff no Modo Re-
verso (embora não tenha sido chamado assim quando a retropropagação foi inventada,
e ela já foi reinventada várias vezes). O autodiff no Modo Reverso executa uma passa-
gem direta calculando o valor de cada nó para o lote de treinamento atual através de
um grafo de cálculo, ...