
深度學習在自然語言處理的應用
|
239
深度學習在自然語言處理的應用
深度學習在自然語言處理(NLP)領域已被證明是相當有效的一種做法。諸如「詞性標
記(POS tagging)」
13
、「 字元生成(character generation,
http://bit.ly/2sUs2PU
)」與
「單詞內嵌(word embeddings)」等技術,都是深度學習的常見應用。以下是本章打算
重點討論的一些自然語言處理應用:
• 使用 Word2Vec 學習單詞內嵌
14
• 使用段落向量做為句子的分散式表達方式
15
• 用段落向量進行文件分類
我們會在後面的章節中,看到以上每一種應用方式的介紹。
使用 Word2Vec,學習單詞內嵌
Word2Vec 是利用圍繞在單詞周圍的前後文,學習偵測出單詞與單詞之間的數學相似
性。Word2Vec 所建立的單詞向量,其實是單詞特徵(隱含於單詞前後文)的一種分散
式數值表達方式。Word2Vec 是把大量文字語料素材當成輸入資料進行訓練,並生成單
詞向量(或稱為「單詞內嵌(word embedding)」)的一個列表,以做為模型的輸出。我
們稍後就會看到,單詞內嵌其中所包含的單詞含義與關係,會在空間中以編碼的方式呈
現,而這種編碼方式同時也具有一些相當好用的特性(例如可進行向量算術運算)。
Word2Vec 模型與演算法
這個演算法首先會根據輸入訓練資料建立一個詞彙表(vocabulary),然後為每個單詞打
造專屬的表達方式。一開始,我們並不是像其他向量化技術一樣,只針對所要處理的文 ...