
深度網路的一般架構原則
|
107
L-BFGS
演算法在實務中使用的情況
雖然 L-BFGS 法具有一些相當有趣的特性,但它在深度網路實務中並不常
使用。
共軛梯度法。 共軛梯度法是根據共軛訊息,來引導線搜索處理行進方向。共軛梯度法
著重於最小化共軛 L2 範數。共軛梯度法非常類似於梯度遞減法,因為它們都是採用線
搜索的做法。它們之間主要區別在於,共軛梯度法要求線搜索過程中的每個連續步驟,
必須相對於方向彼此形成共軛的關係。
無海森矩陣法。 無海森矩陣最佳化演算法與牛頓法有關,但它可以讓我們所得到的二
次函數最小化效果更好。它是 James Martens 於 2010 年針對神經網路所發展出來的強大
最佳化方法。我們會採用共軛梯度迭代方法,來找出二次函數的最小值。
超參數
我們在這裡把超參數(hyperparameter)定義為,使用者可自由選擇、有可能影響模型
訓練效能表現的任何配置設定值。
超參數可分為以下幾類:
• 層的大小
• 幅度(動量、學習速率)
• 正則化(隨機拋棄 [dropout]、拋棄連結 [drop connect]、L1、L2)
• 激活函數(以及同類的函數)
• 權重初始化策略
• 損失函數
• 訓練期間的階段設定(小批量的大小)
• 輸入資料(向量化)的歸一化方案
我們將在本節介紹一些新的深度學習訓練相關超參數,進一步擴展第 1 章的概念。