book

NLTK应用开发指南

Name: NLTK应用开发指南
ISBN: 9781836205913

by Posts & Telecom Press, Nitin K Hardeniya

May 2024

Intermediate to advanced

172 pages

2h 39m

Chinese

Packt Publishing

Read now

Unlock full access

版权信息
版权声明
内容提要
作者简介
审阅者简介
译者序
前言
本书所涵盖的内容前期准备本书的适用读者编写体例读者反馈客户支持实例代码的下载勘误版权如有疑问
第1章自然语言处理简介
1.1 为什么要学习NLP1.2 先从Python开始吧1.2.1 列表1.2.2 自助功能1.2.3 正则表达式1.2.4 字典1.2.5 编写函数1.3 向NLTK迈进1.4 练习1.5 小结
第2章文本的歧义及其清理
2.1 何谓文本歧义2.2 文本清理2.3 语句分离器2.4 标识化处理2.5 词干提取2.6 词形还原2.7 停用词移除2.8 罕见词移除2.9 拼写纠错2.10 练习2.11 小结
第3章词性标注
3.1 何谓词性标注3.1.1 Stanford标注器3.1.2 深入了解标注器3.1.3 顺序性标注器3.1.4 Brill标注器3.1.5 基于机器学习的标注器3.2 命名实体识别（NER）NER标注器3.3 练习3.4 小结

第4章文本结构解析
4.1 浅解析与深解析4.2 两种解析方法4.3 为什么需要进行解析4.4 不同的解析器类型4.4.1 递归下降解析器4.4.2 移位-归约解析器4.4.3 图表解析器4.4.4 正则表达式解析器4.5 依存性文本解析4.6 语块分解4.7 信息提取4.7.1 命名实体识别（NER）4.7.2 关系提取4.8 小结
第5章 NLP应用
5.1 构建第一个NLP应用5.2 其他NLP应用5.2.1 机器翻译5.2.2 统计型机器翻译5.2.3 信息检索5.2.4 语音识别5.2.5 文本分类5.2.6 信息提取5.2.7 问答系统5.2.8 对话系统5.2.9 词义消歧5.2.10 主题建模5.2.11 语言检测5.2.12 光符识别5.3 小结
第6章文本分类
6.1 机器学习6.2 文本分类6.3 取样操作6.3.1 朴素贝叶斯法6.3.2 决策树6.3.3 随机梯度下降法6.3.4 逻辑回归6.3.5 支持向量机6.4 随机森林算法6.5 文本聚类K均值法6.6 文本中的主题建模安装gensim6.7 参考资料6.8 小结
第7章 Web爬虫
7.1 Web爬虫7.2 编写第一个爬虫程序7.3 Scrapy库中的数据流7.3.1 Scrapy库的shell7.3.2 目标项7.4 生成网站地图的蜘蛛程序7.5 目标项管道7.6 参考资料7.7 小结
第8章 NLTK与其他Python库的搭配运用
8.1 NumPy8.1.1 多维数组8.1.2 基本运算8.1.3 从数组中提取数据8.1.4 复杂矩阵运算8.2 SciPy8.2.1 线性代数8.2.2 特征值与特征向量8.2.3 稀疏矩阵8.2.4 优化措施8.3 pandas8.3.1 读取数据8.3.2 数列8.3.3 列转换8.3.4 噪声数据8.4 matplotlib8.4.1 子图绘制8.4.2 添加坐标轴8.4.3 散点图绘制8.4.4 条形图绘制8.4.5 3D绘图8.5 参考资料8.6 小结
第9章 Python中的社交媒体挖掘
9.1 数据收集Twitter9.2 数据提取热门话题9.3 地理可视化9.3.1 影响力检测9.3.2 Facebook9.3.3 有影响力的朋友9.4 小结
第10章大规模文本挖掘
10.1 在Hadoop上使用Python的不同方式10.1.1 Python的流操作10.1.2 Hive/Pig下的UDF10.1.3 流封装器10.2 Hadoop上的NLTK10.2.1 用户定义函数（UDF）10.2.2 Python的流操作10.3 Hadoop上的Scikit-learn10.4 PySpark10.5 小结
欢迎来到异步社区！
异步社区的来历社区里都有什么？购买图书下载资源与作译者互动灵活优惠的购书纸电图书组合购买社区里还可以做什么？提交勘误写作会议活动早知道加入异步

Content preview from NLTK应用开发指南

第3章　词性标注

上一章对自己所要做的所有预处理步骤进行了讨论，以便在工作中可以应对任何文本语料库。我们现在应该可以放心地对任何种类的文本进行解析和清理了。应该执行所有的文本预处理，如针对任意文本的标识化处理、词干提取以及停用词移除等。可以根据自己的需要执行和定制所有相关的预处理工具。到目前为止，已经重点讨论了针对文本型文档的一般性预处理工作。现在，将焦点转向那些动作更为激烈的 NLP 预处理步骤吧。

本章将具体讨论何谓词性标注，以及词性（POS）在NLP应用环境中的意义。也会学习如何用NLTK标注有意义的信息，并介绍可用于NLP密集型应用程序的各种标注器。最后，还将学习如何用NLTK来标注命名实体。详细讨论各种NLP标注器，并且还会提供一些代码片段来帮助你理解它们。还将会看到这些标注器的最佳实践，以说明在什么地方应该使用哪种标注器。在读完本章之后，读者应了解以下内容。

何谓词性标注，以及其在NLP中的重要性。
如何使用NLTK中形形色色的词性标注。
如何用NLTK创建自定义的词性标注。

3.1　何谓词性标注

其实，我们可能在小时候就已经听说过词性（POS）这个术语了，尤其在形容词和副词的实际使用上。要想掌握其中的窍门还是很花时间的。这两者的区别究竟是什么？或许，可以考虑将所有这方面的知识进行编码以创建一个系统。这件事看起来好像挺容易的，但这几十年来，将这些知识转化为可编码的机器学习模型一直都是一个非常难解的NLP问题。在我个人看来，虽然目前最先进的词性标注算法在预测给定单词的词性上已经有了较高的精确度（约97%），但词性标注领域中仍有大量的研究在等着我们。

对于像英语这样的语言来说，它们在新闻和其他领域往往都有许多已被标注的语料库。这为我们带来了许多先进的算法。尽管在一般情况下，这其中的一些标注器应该足以应付各种跨不同领域的、文本化的使用环境了。但在某些特定的用例中，POS的预判可能还是有些不尽如人意。对于这些用例，可能就得要从头开始建立一个标注器了。然而，如果想要深入了解POS，就得先要对机器学习领域中的一些技术有一个基本的了解。虽然这部分有些是要在第6章：文本分类中讨论的内容，但在这里，必须先讨论一下相关基础知识，以便可以创建一个自定义的POS标注器以满足需求。 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9781836205913

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

NLTK应用开发指南

by Posts & Telecom Press, Nitin K Hardeniya

第3章　词性标注

3.1　何谓词性标注

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.