February 2024
Intermediate to advanced
649 pages
9h 58m
Chinese
本章将介绍以下内容。
自然语言工具包(Natural Language ToolKit,NLTK)是进行自然语言处理和文本分析的综合Python库。最初,人们设计NLTK用于教学,现在由于NLTK的实用性和覆盖广度,它在工业研究和开发中得到了广泛应用。NLTK通常用于快速制作出文字处理程序的原型,甚至可以在生产应用中使用。关于选择NLTK功能和可直接用于生产的API的演示,参见text-processing网站。
本章将介绍标记文本和使用WordNet的基本知识。标记化是将一段文本切分成许多片段(如句子和单词)的一种方法。在此后的几章中,这基本上是许多方法的第一步。WordNet是专为自然语言处理系统进行编程访问所设计的字典。这包括以下用例。
NLTK包括了WordNet语料库读取器,我们将使用这个读取器访问和探索WordNet。语料库就是一堆文本,我们设计语料库读取器使得访问语料库比直接访问文件要容易得多。在后面的章节中,我们将再次使用WordNet,因此,读者自己首先要熟悉基本知识是很重要的。
标记化是将字符串分割成一串标记或片段的过程。标记就是找到整体中的一个部分,因此单词就是语句中的标记。语句是段落的标记。我们将从句子标记化开始,或从将段落拆分成一串语句开始。 ...
Read now
Unlock full access