
84
|
第二章:神經網路和深度學習基礎
相反的,雖然比較小的學習速度最後應該還是會抵達誤差最小的位置(有可能是局部極
小值而不是整體最小值),但過程有可能需要很長的時間,而且對於一些運算量本來就
很大的程序來說,也會造成額外的負擔。如果遇上特別大型的資料集,神經網路訓練的
過程有可能動不動就需要耗費數週的時間,此時計算時間的長短更顯得特別重要。如果
你沒辦法再等一個星期才得到結果,可以嘗試選擇一個適中的學習速率(例如 0.1), 並
在同樣條件下嘗試幾種不同的速率值,就可以獲得比較好的速度和正確率了。除了設置
固定的學習速率之外,本書稍後還會介紹如何隨時間逐漸調整學習速率的做法,在速度
與正確性之間取得最佳的平衡。
正則化
「正則化(regularization)」的做法就是透過幾種不同的方法,最大程度減少參數大小,
以避免參數失控所造成的影響。
機器學習中過度套入的控制
正則化的主要目的,就是希望能控制機器學習中出現過度套入的情況。
在數學符號中,我們可以看到正則化是以係數 λ 來表示,它可以控制以下兩者之間的
平衡關係:一是找出良好的套入結果,二是當特徵權重值呈指數增加時,設法讓某些特
徵權重值保持在較低的程度。
正則化係數 L1 和 L2 可以讓某些權重值變得更小一點,有助於避免過度套入的情況。比
較小的權重值會導致比較簡單的假設,而比較簡單的假設就是比較具有通用性的假設。
如果在特徵集合中有好幾個高階多項式的非正規化權重,就容易會有過度套入訓練組資
料的傾向。
隨著輸入訓練組資料量的增加,正則化效應會隨之減小 ...