Modelos de aprendizagem automática e ciência de dados para finanças
by Hariom Tatsat, Sahil Puri, Brad Lookabaugh
Capítulo 9. Aprendizagem por reforço
Este trabalho foi traduzido com recurso a IA. Agradecemos o teu feedback e comentários: translation-feedback@oreilly.com
Os incentivos são o motor de quase tudo, e as finanças não são exceção. Os seres humanos não aprendem com milhões de exemplos rotulados. Em vez disso, aprendemos frequentemente com experiências positivas ou negativas que associamos às nossas acções. Aprender com as experiências e as recompensas ou castigos associados é a ideia central da aprendizagem por reforço (RL).1
A aprendizagem por reforço é uma abordagem para treinar uma máquina a encontrar o melhor curso de ação através de políticas óptimas que maximizam as recompensas e minimizam os castigos.
Os algoritmos de aprendizagem por reforço que permitiram ao AlphaGo (o primeiro programa de computador a derrotar um jogador profissional humano de Go) também estão a encontrar incursões nas finanças. A ideia principal da aprendizagem por reforço de maximizar as recompensas alinha-se perfeitamente com várias áreas das finanças, incluindo a negociação algorítmica e a gestão de carteiras. A aprendizagem por reforço é particularmente adequada para a negociação algorítmica, porque o conceito de um agente que maximiza o retorno num ambiente incerto e dinâmico tem muito em comum com um investidor ou uma estratégia de negociação que interage com os mercados financeiros. Os modelos baseados em aprendizagem por reforço vão um passo além das estratégias de negociação baseadas em previsão ...