
學習速率
|
281
我們希望學習速率能在學習接近結束時才開始下降。我們需要一個學習速率隨時間下降
的調整計劃,好讓我們可以在學習快要結束時,花費額外的一些計算時間,用比較慢的
下降速度來進行比較長時間的訓練。我們希望這個衰減的速率能適應每個參數,而不會
太過於積極或消極,以致於無法阻止學習速率過快或過慢的情況。
使用參數更新比率
要設定學習速率,有個簡單而有效的方法,那就是使用所謂的「參數更新比率(ratio
of updates-to-parameters,更具體來說,是以平均幅度來衡量)」。我們把更新程序
(RMSProp、動量等,以及學習速率)套用到梯度值之後,就會得到一堆更新值;也就
是說,我們的學習方程式就變成 θ ← θ − u,其中參數向量為 θ,更新向量為
u
(長度為
N
,與參數向量相同),而參數更新比率就是:
10 Bengio. 2012. “Practical Recommendations for Gradient-Based Training of Deep Architectures,” in Muller et
al. 2012. Neural Networks: Tricks of the Trade, Second Edition.
Increasing the Learning Rate Setting
Increasing the learning rate initial setting is not always helpful
because although ...