
深度學習在自然語言處理的應用
|
251
使用段落向量,進行文件分類
就像本章稍早所提到的,我們可以在自然語言處理與文件分類等方面運用到段落向量。
在這裡的範例中,我們將使用類似前一個範例的一個段落向量模型,來構建出一個文件
分類器,幫我們從三個標籤中給出一個結果,輸出類似以下的內容:
Document 'health' falls into the following categories:
health: 0.29721372296220205
science: 0.011684473733853906
finance: -0.14755302887323793
正如你所看到的,分數最高的標籤就是我們的分類結果。我們就來看看範例 5-9 這個段
落向量分類應用(
http://bit.ly/2sOpJ5Q
)的程式碼吧。
範例
5-9
用段落向量來分類文件的
Java
程式碼
public class ParagraphVectorsClassifierExample {
ParagraphVectors paragraphVectors;
LabelAwareIterator iterator;
TokenizerFactory tokenizerFactory;
private static final Logger log =
LoggerFactory.getLogger(ParagraphVectorsClassifierExample.class);
public static void ...