
28
|
第一章:機器學習
二元分類器(binary classifier)是最基本的一種分類形式,它只會輸出兩種標籤(兩種
類別:分別為 0 和 1)。輸出的結果也有可能是介於 0.0 到 1.0 之間的浮點數,這就表示
分類的結果並不是絕對確定的。在這種情況下,我們就必須設定一個門檻值(通常是
0.5),好讓我們在兩種類別之間劃出一條分界線。我們經常把 0 與 1 這兩種類別,分別
用「陰性 / 陽性」、「正面 / 負面」(positive/negative)的說法來做為區隔。稍後我們在
「模型評估」一節還會有這方面的詳細討論。
二元分類的例子包括:
• 把人分類成患病或未患病
• 把電子郵件分類成垃圾郵件或非垃圾郵件
• 把交易分類成詐騙交易或正常交易
除了兩種標籤的做法之外,我們也可以使用具有 N 個標籤的分類模型,然後分別針對每
個輸出標籤進行給分,再以最高分的標籤做為其輸出標籤。隨後我們談到多輸出與單輸
出(二元分類)神經網路時,還會有更進一步的討論。本章稍後談到邏輯迴歸,並深入
到神經網路的完整架構時,也會討論到更多關於分類的內容。
推薦
所謂的「
推薦
(
recommendation
)」,指的是一種會推薦東西給使用者的程
序,其中這個系統會根據其他類似使用者的選擇,或是參考使用者自己之
前看過的其他東西,而向使用者做出推薦。其中有一種比較有名的推薦演
算法,叫做「
協同過濾
(
Collaborative Filtering
)」,主要是因為 Amazon.
com 的使用而得以聞名。
集群
所謂的「
集群
(