第1章 标记文本和WordNet的基础

本章将介绍以下内容。

  • 将文本标记成句子。
  • 将句子标记成单词。
  • 使用正则表达式标记语句。
  • 训练语句标记生成器。
  • 在已标记的语句中过滤停用词。
  • 查找WordNet中单词的Synset。
  • 在WordNet中查找词元和同义词。
  • 计算WordNet和Synset的相似度。
  • 发现单词搭配。

自然语言工具包(Natural Language ToolKit,NLTK)是进行自然语言处理和文本分析的综合Python库。最初,人们设计NLTK用于教学,现在由于NLTK的实用性和覆盖广度,它在工业研究和开发中得到了广泛应用。NLTK通常用于快速制作出文字处理程序的原型,甚至可以在生产应用中使用。关于选择NLTK功能和可直接用于生产的API的演示,参见text-processing网站。

本章将介绍标记文本和使用WordNet的基本知识。标记化是将一段文本切分成许多片段(如句子和单词)的一种方法。在此后的几章中,这基本上是许多方法的第一步。WordNet是专为自然语言处理系统进行编程访问所设计的字典。这包括以下用例。

  • 寻找单词的定义。
  • 找到同义词和反义词。
  • 探索单词之间的关系和相似度。
  • 对具有多种用法和定义的单词进行词义消歧。

NLTK包括了WordNet语料库读取器,我们将使用这个读取器访问和探索WordNet。语料库就是一堆文本,我们设计语料库读取器使得访问语料库比直接访问文件要容易得多。在后面的章节中,我们将再次使用WordNet,因此,读者自己首先要熟悉基本知识是很重要的。

标记化是将字符串分割成一串标记或片段的过程。标记就是找到整体中的一个部分,因此单词就是语句中的标记。语句是段落的标记。我们将从句子标记化开始,或从将段落拆分成一串语句开始。 ...

Get Python和NLTK实现自然语言处理 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.