
Avaliação das Ações: o Problema de Atribuição de Crédito | 467
vemos primeiro concatenar 1-outputs para que ele tenha um tensor que contenha
a probabilidade de ambas as ações, esquerda e direita. Observe que, se houvesse
mais de duas ações possíveis, a rede neural teria que gerar uma probabilidade por
ação para que você não precisasse da etapa de concatenação.
Ok, agora temos uma política de rede neural com observações e ações de saída, mas
como a treinamos?
Avaliação das Ações: o Problema de Atribuição de Crédito
Como de costume, se soubéssemos qual seria a melhor ação em cada etapa, poderíamos
treinar a rede neural minimizando a entropia c