acelem agenta jest maksymalizowanie swojej długoterminowej nagrody. Tarodzina prob-
lemów jest znana jako skończone procesy decyzyjne Markowa.
Jednak wświecie rzeczywistym sprawy nie sątakie proste– nagroda jest nieznana idy-
namiczna, anie znana istatyczna. Aby pomóc odkryć tęnieznaną funkcję nagrody ijak
najlepiej jąprzybliżyć, możemy zastosować uczenie nienadzorowane. Wykorzystując taką
przybliżoną funkcję nagrody, możemy zastosować rozwiązania uczenia wzmacnianego,
aby zwiększyć skumulowaną nagrodę wczasie.
Uczenie pół-nadzorowane
Mimo żeuczenie nadzorowane ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month, and much more.