前言
这是一本介绍NLTK库,以及如何将该库与其他Python库搭配运用的书。NLTK是当前自然语言处理(NLP)社区中最为流行、使用最为广泛的库之一。NLTK的设计充分体现了简单的魅力。也就是说,对于大多数复杂的NLP任务,它都可以用寥寥几行代码来实现。
本书的前半部分从介绍Python和NLP开始。在这部分内容中,你将会学到一些通用的预处理技术,例如标识化处理(tokenization)、词干提取(stemming)、停用词(stop word)去除;一些专属于NPL领域的预处理技术等,如词性标注(part-of-speech tagging);以及大多数文本相关的NLP任务都会涉及的命名实体识别(Named-entity recognition,简称NER)等技术。然后,我们会逐步将焦点转到更为复杂的NLP任务上,例如语法解析(parsing)以及其他NLP应用。
本书的后半部分则将更侧重于介绍如何构建一些NLP应用,如对于文本分类,可以用NLTK搭配scikit-learn库来进行。我们还会讨论一些其他的Python库,你应该了解一下这些与文本挖掘或自然语言处理任务相关的库。另外,也会带你看看如何从网页和社交媒体中采集数据,以及如何用NLTK进行大规模的文本处理。
本书所涵盖的内容
第1章 自然语言处理简介。这一章将会涉及一些NLP中的基本概念,并对NLTK和Python做一些介绍。这一章的重点是让你快速了解NLTK,并介绍如何安装所需要的库,以便开始构建一个非常基本的单词云实例。
第2章 文本的歧义及其清理。这一章将会讨论在任何文本挖掘和NLP任务中所需的所有预处理步骤。这一章将会具体讨论断词处理、词干处理、停用词去除等技术。并且,还会为你详细介绍一些别的文本清理技术,以及如何用NLTK来简化它们的实现。 ...
Get NLTK应用开发指南 now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.