
Problemas dos Gradientes: Vanishing/Exploding | 293
ma função de ativação para as camadas totalmente conectadas porque queremos aplicar
a função de ativação após cada camada de normalização de lote.
8
Com a utilização da
função
tf.layers.batch_normalization()
,
criamos as camadas de normalização em lote
configurando seus parâmetros
training
e
momentum
. O algoritmo BN utiliza o decaimento
exponencial para calcular as médias em execução, razão pela qual requer o parâmetro
momentum: dado um novo valor v, a média em execução v é atualizada pela equação:
v v ×momentum + v × 1−momentum
Um bom valor para o momentum seria próximo de 1 — por exemplo, 0,9 ...