
36
|
第一章:機器學習
準牛頓最佳化方法
準牛頓(Quasi-Newton)最佳化演算法是一種迭代演算法,過程牽涉到一連串的「線搜
索(line searches)」。相較於其他最佳化演算法,這種做法有個明顯的特點,就是其選
擇搜索方向的方式。這些方法在本書稍後的章節中都會進一步討論。
雅可比矩陣與海森矩陣
雅可比(Jacobian)矩陣是一個 m × n 矩陣,其中包含的是向量相對於向量的
一階偏導函數。
海森(Hessian)矩陣則是函數二階偏導函數的方矩陣(square matrix)。這個
矩陣描述的是多變數函數的局部曲率。我們可以看到牛頓類型的最佳化方法
中,有大量的最佳化問題都會用到海森矩陣,因為它就是局部泰勒展開的二
次項係數。實際上,海森矩陣在運算上很有可能難以計算。我們比較常看到
的其實是準牛頓演算法,它可計算出海森矩陣的近似結果。其中有一種叫做
「L-BFGS」的做法,就是這類準牛頓最佳化演算法的一個例子,我們在第 2
章就會進行詳細的介紹。
我們並不打算在本書引用雅可比矩陣和海森矩陣的做法,但我們希望讀者能知
道有這樣的概念,並稍稍瞭解它們在更廣泛的機器學習領域中佔有什麼樣的
地位。
「生成型」與「判別型」模型
我們可以把模型設置成不同的型態,讓模型生成不同型態的輸出。其中兩種主要的
型態,就是「
生成型
(
generative
)」模型和「
判別型
(
discriminative
)」模型。生成
型模型可以理解資料的創建方式,進而生成一些新的資料,以做為模型的輸出或響應
(response)。判別型模型並不關心資料的創建方式,它只會單純針對給定的輸入資料, ...