
451
附錄 B
RL4J 與強化學習
Ruben Fiszel
(
http://rubenfiszel.github.io/
)
序言
本附錄一開始先介紹「強化學習(reinforcement learning)」,然後再詳細說明以像素為
輸入的深度 Q 網路(DQN, Deep Q-Networks),最後展示一個 RL4J 範例來做個小結。
我們先來看看強化學習的核心概念。
強化學習是機器學習領域中一個令人興奮的子領域。基本上,它指的是在特定環境中
學習高效的策略。如果用比較非正式的說法,它其實與「帕夫洛夫制約」(Pavlovian
conditioning,又稱「古典制約」)非常相似:如果你針對某個行為給予獎勵,經過一段
時間之後,代理者就能學會重複這樣的行為,以獲得更多的獎勵。
馬可夫決策過程
從形式上來看,前面所提到的環境,可以用所謂的「馬可夫決策過程(MDP, Markov
Decision Process)」來加以定義。這個聽起來很可怕的名字,其實就是以下(五元組)
所構成的組合:
• 一組狀態(State)S:例如在西洋棋中,狀態指的就是各種棋局下每個棋子的位置。
• 一組可能的動作(Action)A:在西洋棋中,指的就是每一種棋局下每一種可能的動
作(例如從 e4 移動到 e5)。