第12章 Word2Vec、Doc2Vec和Gensim

前面我们多次探讨了向量这个数据结构。向量是一种理解和表示文本数据的数学方式,所有机器学习算法都依赖这种表示方式。本章会进一步讨论向量,并使用机器学习技术将文本中的每个单词封装成更好的向量表达方式。这类技术通常被称为词嵌入(word embeddings),Word2Vec和Doc2Vec是两种最流行的词嵌入技术。

本章介绍的主题如下:

  • Word2Vec;
  • Doc2Vec;
  • 其他词嵌入技术。

Word2Vec算法是机器学习在文本分析中最重要的应用,是一个非常有用的工具。Word2Vec是用来把语料库中的单词构建成向量的工具,其优势是可以通过构建好的向量表达单词的语义信息。论文Efficient Estimation of Word Representations in Vector SpaceDistributed Representations of Words and Phrases and their CompositionalityLinguistic Regularities in Continuous Space Word Representations中阐述了Word2Vec技术的理论基础及其应用。

刚才提到Word2Vec生成的向量可以表达单词的语义信息,那么这到底意味着什么呢?首先,我们可以使用词向量做语义推理。Mikolov的论文中有一个著名的例子,用V代表单词的向量,使用词向量执行运算:V(King)-V(Man)+V(Woman),这个运算的结果与V(Queen)向量非常接近。这个例子非常直观地表明我们对这些单词的直观理解反映在单词的学习向量表示中。

这使我们能够在文本分析流程中添加更多功能,比如向量的直观语义表示(以及扩展、文档,我们稍后会进行讨论)将派上更大用场。 ...

Get 自然语言处理与计算语言学 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.