Rozdział 9. Uczenie przez wzmacnianie

Nasze agenty, podobnie jak ludzie, uczą się realizować skuteczne strategie, które na dłuższą metę prowadzą do najwyższych nagród. Ten model uczenia metodą prób i błędów, wyłącznie na podstawie kar i nagród, jest nazywanym uczeniem przez wzmacnianie1.

— DeepMind (2016)

Algorytmy uczenia stosowane w rozdziałach 7. i 8. należą do grupy uczenia nadzorowanego. Metody te wymagają dostępności zbioru danych z cechami i etykietami, który umożliwia algorytmom uczenie się zależności między cechami i etykietami w celu skutecznej estymacji lub klasyfikacji. W prostym przykładzie z rozdziału 1. pokazałem, że uczenie przez wzmacnianie działa inaczej. Należy zacząć od tego, że nie trzeba w nim od początku mieć kompletnego ...

Get Sztuczna inteligencja w finansach now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.