
深度網路的一般架構原則
|
103
• 平方損失函數
• 邏輯損失函數
• 樞紐(Hinge)損失函數
• 負對數可能性函數
之前我們把損失函數區分成三大類:
• 迴歸損失函數
• 分類損失函數
• 重建損失函數
我們在第 1 章曾介紹過前兩種類型。第三種重建損失函數牽涉到無監督特徵提取,它可
說是深度學習網路達到破記錄正確率的重要原因。在深度網路的某些架構中,若搭配適
當的激活函數,重建損失函數就可以更有效幫助網路提取出特徵。其中一個例子就是把
多分類交叉熵(multiclass cross-entropy)當成損失函數,用於 softmax 激活函數層中,
藉以獲取分類輸出。下一節我們就會介紹這個特別的損失函數。
重建交叉熵損失函數
如果採用的是重建交叉熵損失函數,我們會先套用「高斯雜訊」(這是一種統計白雜
訊),然後損失函數就會懲罰網路中任何與原始輸入資料不相似的結果。這麼一來,就
會促使網路學習不同的特徵,試圖更有效重建輸入,並以最大程度降低誤差。在深度
學習領域中,只要是牽涉到 RBM 預訓練階段的特徵工程,就會用到重建交叉熵損失
函數。
最佳化演算法
以機器學習方式訓練一個模型,其實就是為模型參數向量找出最好的一組值。我們可以
把機器學習視為一種最佳化問題;我們會設法調整模型預測函數的參數,盡可能讓損失
函數最小化。
用損失函數來定義「最佳」
在最佳化演算法中,我們把參數向量「最佳」的一組值,定義成損失函數
最低值所對應的一組值。