all_gradients = [] # gradientes saçvos em cada etapa para cada episódio
for game in range(n_games_per_update):
current_rewards = [] # todas as recompensas do episódio atual
current_gradients = [] # todos os gradientes do episódio atual
obs = env.reset()
for step in range(n_max_steps):
action_val, gradients_val = sess.run(
[action, gradients],
feed_dict={X: obs.reshape(1, n_inputs)}) # uma obs
obs, reward, done, info = env.step(action_val[0][0])
current_rewards.append(reward)
current_gradients.append(gradients_val)
if done:
break
all_rewards.append(current_rewards)
all_gradients.append(current_gradients) ...