February 2024
Intermediate to advanced
649 pages
9h 58m
Chinese
NLTK是自然语言处理(Natural Language Processing,NLP)社区中最受欢迎和广泛使用的库之一。NLTK的优点在于其简单性,其中大多数复杂的NLP任务可以使用几行代码实现。本书主要内容包括:如何将文本标记为各个单词,如何使用WordNet语言词典,如何以及何时进行词干提取或者词形还原,如何替换单词和纠正拼写,如何创建自己的自定义文本语料库和语料库(包括MongoDB支持的语料库)读取器,如何使用词性标注器和部分词性标注单词,如何使用部分解析创建和转换分块短语树,如何进行文本分类的特征提取和情感分析,如何进行并行和分布式文本处理,以及如何在Redis中存储单词分布。
这种一边学习一边动手实践的学习方式会教你更多知识。本书有助于你成为使用NLTK进行自然语言处理的专家。
模块1讨论文本挖掘/NLP任务中所需的所有预处理步骤。该模块详细讨论标记化、词干提取、停用词删除和其他文本清理过程,以及如何在NLTK中轻松实现这些操作。
模块2解释如何使用语料库读取器和创建自定义语料库。它还介绍如何使用NLTK附带的一些语料库。它涵盖组块过程(也称为部分分析),组块过程可以识别句子中的短语和命名实体。它还解释如何训练自己的自定义组块器并创建特定的命名实体识别器。
模块3讨论如何计算单词频率和实现各种语言建模技术。它还讨论浅层语义分析(即NER)的概念和应用及使用Wordnet的TSD。
模块3有助于你理解和应用信息检索与文本摘要的概念。
在学习模块1时,需要满足的软硬件配置如下表所示。
|
章号 |
需要的软件 |
免费/专用 |
下载软件的网站 |
硬件规格 |
需要的操作系统 |
|---|---|---|---|---|---|
|
第1~5章 |
Python/Anaconda ... |
Read now
Unlock full access