第4章 Gensim:文本向量化、向量变换和n-grams的工具

本章介绍的主题如下:

  • Gensim库介绍;
  • 向量以及为什么需要向量化;
  • 使用Gensim进行向量变换;
  • n-grams及其相关预处理技术;
  • 总结。

到目前为止,本书并未介绍如何获取文本中隐藏的信息,更多的是讨论如何构造文本数据。下面先来讨论向量空间,以及Python的另一个开源库Gensim。因为掌握Gensim有助于读者阅读后续章节,所以这里先介绍Gensim的基础知识。本书不涉及Gensim的底层原理,只介绍其应用。本章还将重点介绍在机器学习和文本分析中被大量使用的一种数据结构:向量。

要提醒读者的是,目前涉及的知识范围只限于预处理阶段,还未实质开始机器学习建模。上一章主要涉及文本清洗,本章则关注如何将文本表示转换为数值表示,特别是如何把字符串转换为向量这一主题。

文本表示和向量变换具体是指探索字符串变换为向量的各种方法,如词袋(bag-of-words)、TF-IDF(词频-反向文档频率)、LSI(潜在语义索引)和最近流行的Word2Vec。第8章和第12章会详细介绍这4种方法。完成向量变换后的数据可以与机器学习库scikit-learn无缝对接。Gensim最初是Radim Rehurek用于完成博士论文的一个小项目,论文标题为Scalability of Semantic Analysis in Natural Language Processing。其中讲述了潜在Dirichlet分布和潜在语义分析算法的最新实现方式,还介绍了TF-IDF和Random projection的实现。后来,Gensim却发展成为世界上最大的NLP/信息检索Python库之一,兼具内存高效性和可扩展性,这与此前可用于语义建模的大多数学术代码(例如Stanford ...

Get 自然语言处理与计算语言学 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.