Capítulo 9. Aprendizagem por reforço
Este trabalho foi traduzido com recurso a IA. Agradecemos o teu feedback e comentários: translation-feedback@oreilly.com
Tal como um ser humano, os nossos agentes aprendem por si próprios a alcançar estratégias de sucesso que conduzam às maiores recompensas a longo prazo. Este paradigma de aprendizagem por tentativa e erro, apenas com base em recompensas ou castigos, é conhecido como aprendizagem por reforço.1
DeepMind (2016)
Os algoritmos de aprendizagem aplicados nos Capítulos 7 e 8 enquadram-se na categoria de aprendizagem supervisionada. Estes métodos exigem que exista um conjunto de dados disponível com caraterísticas e etiquetas que permita aos algoritmos aprender relações entre as caraterísticas e as etiquetas para serem bem sucedidos em tarefas de estimativa ou classificação. Como o exemplo simples do Capítulo 1 ilustra, a aprendizagem por reforço (RL) funciona de forma diferente. Para começar, não é necessário fornecer à partida um conjunto de dados abrangente de caraterísticas e etiquetas. Os dados são antes gerados pelo agente de aprendizagem enquanto interage com o ambiente de interesse. Este capítulo aborda a RL com algum pormenor e introduz noções fundamentais, bem como um dos algoritmos mais populares utilizados neste domínio: Q-learning (QL). As redes neuronais não são substituídas pelos algoritmos de RL; geralmente também desempenham um papel importante neste contexto.
"Explica as noções fundamentais da RL, como ambientes, ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access