
超參數
|
83
雖然我們在前面簡單談到了交叉熵的主題,並且提到對機率取對數可以把相乘變成相加
的關係,但我們沒有提到的是,對機率取對數的做法,就等於是把我們直接帶入資訊理
論和熵(entropy)概念的領域之中。
不同的理論基礎
儘管前面曾提到負對數可能性在數學上等價於交叉熵,但它們各自是以不
同的理論方法做為其基礎。
超參數
在機器學習領域有兩種參數,一種是模型最佳化過程中持續調整的參數,另一種則是我
們想讓網路訓練速度更快、效果更好而進行調整的參數。這些可調整的參數就是所謂的
「
超參數
(
hyperparameters
)」,它在學習演算法的訓練期間,負責控制最佳化函數和模
型的選擇。在 DL4J 中,我們把最佳化演算法也叫做「更新程序(updater)」,因為演算
法在整個權重空間中為了最小化誤差所採取的步驟,與「更新」是同義的。
超參數的選擇重點在於,必須確保模型面對訓練組資料時,既不會出現過度套入也不會
出現套入不足的情況,同時還希望能盡可能快一點學習到資料的結構。
學習速率
學習速率(learning rate)會影響最佳化過程中參數調整的幅度,以最大程度降低神經網
路推測值的誤差。它是一個係數,在更新程序橫掃過整個損失函數空間的過程中,就是
根據這個參數,對參數向量
x
每一步驟的調整(更新)幅度進行縮放調整。
在反向傳播過程中,我們會把誤差梯度乘以學習速率,然後再用這個相乘的結果,對連
結權重值前一次的迭代結果進行更新,以得出新的權重值。學習速率決定的是演算法下
一步驟要根據梯度做出多大幅度的調整。如果遇到比較大的誤差加上陡峭的梯度,搭配 ...