
機器學習的工作原理
|
29
套入不足和過度套入
我們之前曾提過,最佳化演算法一開始要先解決「套入不足(underfitting)」的問題;
換句話說,我們一開始只是採用了一條與資料之間還不是很近似的直線,然後再設法讓
這條直線與資料更接近一點。假設我們想把資料散佈圖中不同類別的資料切分開來,如
圖 1-7 所示,用直線來切分的話,就成了一個套入不足的好例子。
套入不足 不錯的套入結果 過度套入
圖 1-7 機器學習中「套入不足」和「過度套入」的例子
如果套入的曲線把資料切分得太過完美,很可能就是遇到了相反的問題,稱為「過度套
入(overfitting)」。解決套入不足當然是優先要考慮的問題,但在機器學習方面,有很
多努力其實都花費在解決過度套入的問題。如果我們說某個模型過度套入整組資料,意
思就是它有可能在面對訓練資料時錯誤率很低,但面對我們感興趣的母體資料時,通用
性卻很差。
另一種解釋過度套入的方式,就是可以考慮一下資料的分佈情況。我們利用訓練組資料
畫出了一條具有預測能力的線,但訓練組資料只不過是從一整組更大的未知資料集取樣
的結果,如果我們希望畫出來的線能具備預測的能力,這條線面對更大的整組資料集時
也必須具有同樣的套入效果才行。因此我們必須假設,我們的樣本組必須是更大一整組
資料集的一個鬆散的代表。
最佳化
前面曾提過,我們可以利用調整權重的方式,讓資料的預測越來越準確,這整個過程就
叫做「
參數最佳化
(
parameter optimization
)」。你可以把這整個過程,想像成一種科學
方法。首先可以用某種公式做出假設 ...