book

Python和NLTK实现自然语言处理

Name: Python和NLTK实现自然语言处理
ISBN: 9781835083451

by Posts & Telecom Press, Nitin Hardeniya

February 2024

Intermediate to advanced

649 pages

9h 58m

Chinese

Packt Publishing

Read now

Unlock full access

版权信息
版权
版权声明
内容提要
译者序
前言
资源与支持
模块1 NLTK基础知识
第1章自然语言处理简介
1.1 为什么要学习NLP1.2 从Python的基本知识开始1.2.1 列表1.2.2 自助1.2.3 正则表达式1.2.4 词典1.2.5 编写函数1.3 NLTK1.4 试一试1.5 本章小结
第2章文本的整理和清洗
2.1 文本整理2.2 文本清洗2.3 句子拆分器2.4 标记解析2.5 词干提取2.6 词形还原2.7 停用词删除2.8 生僻字删除2.9 拼写校正2.10 试一试2.11 本章小结

第3章词性标注
3.1 什么是词性标注3.1.1 斯坦福标注器3.1.2 深入了解标注器3.1.3 序列标注器3.1.4 布里尔标注器3.1.5 基于标注器的机器学习3.2 命名实体识别NER标注器3.3 试一试3.4 本章小结
第4章对文本的结构进行语法分析
4.1 浅层语法分析与深层语法分析4.2 语法分析的两种方法4.3 为什么需要语法分析4.4 不同类型的语法分析器4.4.1 递归下降的语法分析器4.4.2 移位归约语法分析器4.4.3 图表语法分析器4.4.4 正则表达式语法分析器4.5 依存分析4.6 组块化4.7 信息抽取4.7.1 命名实体识别4.7.2 关系抽取4.8 本章小结
第5章 NLP应用
5.1 构建第一个NLP应用5.2 其他的NLP应用5.2.1 机器翻译5.2.2 统计机器翻译5.2.3 信息检索5.2.4 语音识别5.2.5 文本分类5.2.6 信息提取5.2.7 问答系统5.2.8 对话系统5.2.9 词义消歧5.2.10 主题建模5.2.11 语言检测5.2.12 光学字符识别5.3 本章小结
第6章文本分类
6.1 机器学习6.2 文本分类6.3 采样6.3.1 朴素贝叶斯6.3.2 决策树6.3.3 随机梯度下降6.3.4 逻辑回归6.3.5 支持向量机6.4 随机森林算法6.5 文本聚类K均值算法6.6 文本的主题建模安装gensim6.7 参考资料6.8 本章小结
第7章网络爬取
7.1 网络爬虫7.2 编写第一个爬虫程序7.3 Scra py中的数据流7.3.1 Scrapy命令行界面7.3.2 项7.4 站点地图蜘蛛7.5 项管道7.6 外部参考7.7 本章小结
第8章与其他Python库一同使用NLTK
8.1 NumPy8.1.1 ndarray8.1.2 基本操作8.1.3 从数组中提取数据8.1.4 复杂的矩阵运算8.2 SciP y8.2.1 线性代数8.2.2 特征值和特征向量8.2.3 稀疏矩阵8.2.4 优化8.3 Pandas8.3.1 读取数据8.3.2 时序数据8.3.3 列转换8.3.4 噪声数据8.4 Matplotlib8.4.1 subplot8.4.2 添加轴8.4.3 散点图8.4.4 柱状图8.4.5 3D图8.5 外部参考8.6 本章小结
第9章使用Python进行社交媒体挖掘
9.1 数据收集推特9.2 数据提取热门话题9.3 地理可视化9.3.1 影响者检测9.3.2 Facebook9.3.3 影响者的朋友9.4 本章小结
第10章大规模的文本挖掘
10.1 在Hadoop上使用Python的不同方法10.1.1 Python的流10.1.2 Hive/Pig UDF10.1.3 流包装器10.2 在Hadoop上运行NLTK10.2.1 UDF10.2.2 Python流10.3 在Hadoop上运行scikit-learn10.4 PySpark10.5 本章小结
模块2 使用Python 3的NLTK 3进行文本处理
第1章标记文本和WordNet的基础
1.1 引言1.2 将文本标记成句子1.2.1 准备工作1.2.2 工作方式1.2.3 工作原理1.2.4 更多信息1.2.5 请参阅1.3 将句子标记成单词1.3.1 工作方式1.3.2 工作原理1.3.3 更多信息1.3.4 请参阅1.4 使用正则表达式标记语句1.4.1 准备工作1.4.2 工作方式1.4.3 工作原理1.4.4 更多信息1.4.5 请参阅1.5 训练语句标记生成器1.5.1 准备工作1.5.2 工作方式1.5.3 工作原理1.5.4 更多信息1.5.5 请参阅1.6 在已标记的语句中过滤停用词1.6.1 准备工作1.6.2 工作方式1.6.3 工作原理1.6.4 更多信息1.6.5 请参阅1.7 查找WordNet中单词的Synset1.7.1 准备工作1.7.2 工作方式1.7.3 工作原理1.7.4 更多信息1.7.5 请参阅1.8 在WordNet中查找词元和同义词1.8.1 工作方式1.8.2 工作原理1.8.3 更多信息1.8.4 请参阅1.9 计算WordNet和Synset的相似度1.9.1 工作方式1.9.2 工作原理1.9.3 更多信息1.9.4 请参阅1.10 发现单词搭配1.10.1 准备工作1.10.2 工作方式1.10.3 工作原理1.10.4 更多信息1.10.5 请参阅
第2章替换和校正单词
2.1 引言2.2 词干提取2.2.1 工作方式2.2.2 工作原理2.2.3 更多信息2.2.4 请参阅2.3 使用WordNet进行词形还原2.3.1 准备工作2.3.2 工作方式2.3.3 工作原理2.3.4 更多信息2.3.5 请参阅2.4 基于匹配的正则表达式替换单词2.4.1 准备工作2.4.2 工作方式2.4.3 工作原理2.4.4 更多信息2.4.5 请参阅2.5 移除重复字符2.5.1 准备工作2.5.2 工作方式2.5.3 工作原理2.5.4 更多信息2.5.5 请参阅2.6 使用Enchant进行拼写校正2.6.1 准备工作2.6.2 工作方式2.6.3 工作原理2.6.4 更多信息2.6.5 请参阅2.7 替换同义词2.7.1 准备工作2.7.2 工作方式2.7.3 工作原理2.7.4 更多信息2.7.5 请参阅2.8 使用反义词替换否定形式2.8.1 工作方式2.8.2 工作原理2.8.3 更多信息2.8.4 请参阅
第3章创建语料库
3.1 引言3.2 建立自定义语料库3.2.1 准备工作3.2.2 工作方式3.2.3 工作原理3.2.4 更多信息3.2.5 请参阅3.3 创建词汇表语料库3.3.1 准备工作3.3.2 工作方式3.3.3 工作原理3.3.4 更多信息3.3.5 请参阅3.4 创建已标记词性单词的语料库3.4.1 准备工作3.4.2 工作方式3.4.3 工作原理3.4.4 更多信息3.4.5 请参阅3.5 创建已组块短语的语料库3.5.1 准备工作3.5.2 工作方式3.5.3 工作原理3.5.4 更多信息3.5.5 请参阅3.6 创建已分类文本的语料库3.6.1 准备工作3.6.2 工作方式3.6.3 工作原理3.6.4 更多信息3.6.5 请参阅3.7 创建已分类组块语料库读取器3.7.1 准备工作3.7.2 工作方式3.7.3 工作原理3.7.4 更多信息3.7.5 请参阅3.8 懒惰语料库加载3.8.1 工作方式3.8.2 工作原理3.8.3 更多信息3.9 创建自定义语料库视图3.9.1 工作方式3.9.2 工作原理3.9.3 更多信息3.9.4 请参阅3.10 创建基于MongoDB的语料库读取器3.10.1 准备工作3.10.2 工作方式3.10.3 工作原理3.10.4 更多信息3.10.5 请参阅3.11 在加锁文件的情况下编辑语料库3.11.1 准备工作3.11.2 工作方式3.11.3 工作原理
第4章词性标注
4.1 引言4.2 默认标注4.2.1 准备工作4.2.2 工作方式4.2.3 工作原理4.2.4 更多信息4.2.5 请参阅4.3 训练一元组词性标注器4.3.1 工作方式4.3.2 工作原理4.3.3 更多信息4.3.4 请参阅4.4 回退标注的组合标注器4.4.1 工作方式4.4.2 工作原理4.4.3 更多信息4.4.4 请参阅4.5 训练和组合N元标注器4.5.1 准备工作4.5.2 工作方式4.5.3 工作原理4.5.4 更多信息4.5.5 请参阅4.6 创建似然单词标签的模型4.6.1 工作方式4.6.2 工作原理4.6.3 更多信息4.6.4 请参阅4.7 使用正则表达式标注4.7.1 准备工作4.7.2 工作方式4.7.3 工作原理4.7.4 更多信息4.7.5 请参阅4.8 词缀标签4.8.1 工作方式4.8.2 工作原理4.8.3 更多信息4.8.4 请参阅4.9 训练布里尔标注器4.9.1 工作方式4.9.2 工作原理4.9.3 更多信息4.9.4 请参阅4.10 训练TnT标注器4.10.1 工作方式4.10.2 工作原理4.10.3 更多信息4.10.4 请参阅4.11 使用WordNet进行标注4.11.1 准备工作4.11.2 工作方式4.11.3 工作原理4.11.4 请参阅4.12 标注专有名词4.12.1 工作方式4.12.2 工作原理4.12.3 请参阅4.13 基于分类器的标注4.13.1 工作方式4.13.2 工作原理4.13.3 更多信息4.13.4 请参阅4.14 使用NLTK训练器训练标注器4.14.1 工作方式4.14.2 工作原理4.14.3 更多信息4.14.4 请参阅
第5章提取组块
5.1 引言5.2 使用正则表达式组块和隔断5.2.1 准备工作5.2.2 工作方式5.2.3 工作原理5.2.4 更多信息5.2.5 请参阅5.3 使用正则表达式合并和拆分组块5.3.1 工作方式5.3.2 工作原理5.3.3 更多信息5.3.4 请参阅5.4 使用正则表达式扩展和删除组块5.4.1 工作方式5.4.2 工作原理5.4.3 更多信息5.4.4 请参阅5.5 使用正则表达式进行部分解析5.5.1 工作方式5.5.2 工作原理5.5.3 更多信息5.5.4 请参阅5.6 训练基于标注器的组块器5.6.1 工作方式5.6.2 工作原理5.6.3 更多信息5.6.4 请参阅5.7 基于分类的分块5.7.1 工作方式5.7.2 工作原理5.7.3 更多信息5.7.4 请参阅5.8 提取命名实体5.8.1 工作方式5.8.2 工作原理5.8.3 更多信息5.8.4 请参阅5.9 提取专有名词组块5.9.1 工作方式5.9.2 工作原理5.9.3 更多信息5.10 提取部位组块5.10.1 工作方式5.10.2 工作原理5.10.3 更多信息5.10.4 请参阅5.11 训练命名实体组块器5.11.1 工作方式5.11.2 工作原理5.11.3 更多信息5.11.4 请参阅5.12 使用NLTK训练器训练组块器5.12.1 工作方式5.12.2 工作原理5.12.3 更多信息5.12.4 请参阅
第6章转换组块与树
6.1 引言6.2 过滤句子中无意义的单词6.2.1 准备工作6.2.2 工作方式6.2.3 工作原理6.2.4 更多信息6.2.5 请参阅6.3 纠正动词形式6.3.1 准备工作6.3.2 工作方式6.3.3 工作原理6.3.4 请参阅6.4 交换动词短语6.4.1 工作方式6.4.2 工作原理6.4.3 更多信息6.4.4 请参阅6.5 交换名词基数6.5.1 工作方式6.5.2 工作原理6.5.3 请参阅6.6 交换不定式短语6.6.1 工作方式6.6.2 工作原理6.6.3 更多信息6.6.4 请参阅6.7 单数化复数名词6.7.1 工作方式6.7.2 工作原理6.7.3 请参阅6.8 链接组块变换6.8.1 工作方式6.8.2 工作原理6.8.3 更多信息6.8.4 请参阅6.9 将组块树转换为文本6.9.1 工作方式6.9.2 工作原理6.9.3 更多信息6.9.4 请参阅6.10 平展深度树6.10.1 准备工作6.10.2 工作方式6.10.3 工作原理6.10.4 更多信息6.10.5 请参阅6.11 创建浅树6.11.1 工作方式6.11.2 工作原理6.11.3 请参阅6.12 转换树标签6.12.1 准备工作6.12.2 工作方式6.12.3 工作原理6.12.4 请参阅
第7章文本分类
7.1 引言7.2 词袋特征提取7.2.1 工作方式7.2.2 工作原理7.2.3 更多信息7.2.4 请参阅7.3 训练朴素贝叶斯分类器7.3.1 准备工作7.3.2 工作方式7.3.3 工作原理7.3.4 更多信息7.3.5 请参阅7.4 训练决策树分类器7.4.1 工作方式7.4.2 工作原理7.4.3 更多信息7.4.4 请参阅7.5 训练最大熵分类器7.5.1 准备工作7.5.2 工作方式7.5.3 工作原理7.5.4 更多信息7.5.5 请参阅7.6 训练scikit-learn分类器7.6.1 准备工作7.6.2 工作方式7.6.3 工作原理7.6.4 更多信息7.6.5 请参阅7.7 衡量分类器的精准率和召回率7.7.1 工作方式7.7.2 工作原理7.7.3 更多信息7.7.4 请参阅7.8 计算高信息量单词7.8.1 工作方式7.8.2 工作原理7.8.3 更多信息7.8.4 请参阅7.9 使用投票组合分类器7.9.1 准备工作7.9.2 工作方式7.9.3 工作原理7.9.4 请参阅7.10 使用多个二元分类器分类7.10.1 准备工作7.10.2 工作方式7.10.3 工作原理7.10.4 更多信息7.10.5 请参阅7.11 使用NLTK训练器训练分类器7.11.1 工作方式7.11.2 工作原理7.11.3 更多信息7.11.4 请参阅
第8章分布式进程和大型数据集的处理
8.1 引言8.2 使用execnet进行分布式标注8.2.1 准备工作8.2.2 工作方式8.2.3 工作原理8.2.4 更多内容8.2.5 请参阅8.3 使用execnet进行分布式组块8.3.1 准备工作8.3.2 工作方式8.3.3 工作原理8.3.4 更多内容8.3.5 请参阅8.4 使用execnet并行处理列表8.4.1 工作方式8.4.2 工作原理8.4.3 更多内容8.4.4 请参阅8.5 在Redis中存储频率分布8.5.1 准备工作8.5.2 工作方式8.5.3 工作原理8.5.4 更多内容8.5.5 请参阅8.6 在Redis中存储条件频率分布8.6.1 准备工作8.6.2 工作方式8.6.3 工作原理8.6.4 更多内容8.6.5 请参阅8.7 在Redis中存储有序字典8.7.1 准备工作8.7.2 工作方式8.7.3 工作原理8.7.4 更多内容8.7.5 请参阅8.8 使用Redis和execnet进行分布式单词评分8.8.1 准备工作8.8.2 工作方式8.8.3 工作原理8.8.4 更多内容8.8.5 请参阅
第9章解析特定的数据类型
9.1 引言9.2 使用dateutil解析日期和时间9.2.1 准备工作9.2.2 工作方式9.2.3 工作原理9.2.4 更多信息9.2.5 请参阅9.3 时区的查找和转换9.3.1 准备工作9.3.2 工作方式9.3.3 工作原理9.3.4 更多信息9.3.5 请参阅9.4 使用lxml从HTML中提取URL9.4.1 准备工作9.4.2 工作方式9.4.3 工作原理9.4.4 更多信息9.4.5 请参阅9.5 清理和剥离HTML9.5.1 准备工作9.5.2 工作方式9.5.3 工作原理9.5.4 更多信息9.5.5 请参阅9.6 使用Beautiful Soup转换HTML实体9.6.1 准备工作9.6.2 工作方式9.6.3 工作原理9.6.4 更多信息9.6.5 请参阅9.7 检测和转换字符编码9.7.1 准备工作9.7.2 工作方式9.7.3 工作原理9.7.4 更多信息9.7.5 请参阅
附录A 宾州treebank词性标签
模块3 使用Python掌握自然语言处理
第1章使用字符串
1.1 标记化1.1.1 将文本标记为句子1.1.2 其他语言文字的标记化1.1.3 将句子标记为单词1.1.4 使用TreebankWordTokenizer进行标记化1.1.5 使用正则表达式进行标记化1.2 规范化1.2.1 消除标点符号1.2.2 转化为小写和大写1.2.3 处理停用词1.2.4 计算英语中的停用词1.3 替代和纠正标记1.3.1 使用正则表达式替换单词1.3.2 使用一个文本替换另一个文本的示例1.3.3 在标记化之前进行替代1.3.4 处理重复的字符1.3.5 删除重复字符的示例1.3.6 使用单词的同义词替换单词1.4 在文本上应用齐夫定律1.5 相似性量度1.5.1 使用编辑距离算法应用相似性量度1.5.2 使用杰卡德系数应用相似性量度1.5.3 使用史密斯-沃特曼算法应用相似性量度1.5.4 其他字符串相似性指标1.6 本章小结
第2章统计语言模型
2.1 单词频率2.1.1 对给定文本进行最大似然估计2.1.2 隐马尔可夫模型估计2.2 在MLE模型上应用平滑2.2.1 加一平滑法2.2.2 古德-图灵算法2.2.3 聂氏估计2.2.4 威滕·贝尔估计2.3 为MLE指定回退机制2.4 应用数据插值获得混合和匹配2.5 应用困惑度评估语言模型2.6 在建模语言中应用梅特罗波利斯-黑斯廷斯算法2.7 在语言处理中应用吉布斯采样2.8 本章小结
第3章词语形态学——试一试
3.1 词语形态学3.2 词根还原器3.3 词形还原3.4 开发用于非英语语言的词根还原器3.5 词语形态分析器3.6 词语形态生成器3.7 搜索引擎3.8 本章小结
第4章词性标注——识别单词
4.1 词性标注默认标注4.2 创建POS标注的语料库4.3 选择某个机器学习算法4.4 涉及n元组方法的统计建模4.5 使用POS标注的语料库开发组块器4.6 本章小结
第5章解析——分析训练数据
5.1 解析5.2 构建树库5.3 从树库中提取上下文无关文法的规则5.4 从CFG中创建概率上下文无关的文法5.5 CYK图解析算法5.6 厄雷图解析算法5.7 本章小结
第6章语义分析——意义重大
6.1 语义分析6.1.1 NER简介6.1.2 使用隐马尔可夫模型的NER系统6.1.3 使用机器学习工具包训练NER6.1.4 使用POS标注的NER6.2 从Wordnet中生成同义词集ID6.3 使用Wordnet消除歧义6.4 本章小结
第7章情感分析——我很高兴
7.1 情感分析使用NER的情感分析7.2 使用机器学习的情感分析NER系统的评价7.3 本章小结
第8章信息检索——访问信息
8.1 信息检索8.1.1 停用词删除8.1.2 利用向量空间模型进行信息检索8.2 向量空间评分以及与查询操作器交互8.3 利用隐含语义索引开发IR系统8.4 文本摘要8.5 问答系统8.6 本章小结
第9章话语分析——知识就是信仰
9.1 话语分析9.1.1 使用定中心理论进行话语分析9.1.2 回指解析9.2 本章小结
第10章 NLP系统的评估——性能分析
10.1 对NLP系统进行评估的需求10.1.1 NLP工具（POS标注器、词干还原器和形态分析器）的评估10.1.2 使用黄金数据评估解析器10.2 IR系统的评估10.3 错误识别的指标10.4 基于词汇匹配的指标10.5 基于语法匹配的指标10.6 使用浅层语义匹配的指标10.7 本章小结
参考书目

Content preview from Python和NLTK实现自然语言处理

第7章　网络爬取

非结构化文本的最大资源库是Web。如果你知道如何抓取Web数据，那么你就拥有的随时可用于实验的数据。因此，对NTLK感兴趣的人值得学习网络爬取技术。本章探讨的就是从网络中收集数据的知识。

在本章中，我们将使用称为Scrapy的Python库来编写网络爬虫程序。我们将提供根据要求配置不同设置所有的详细信息。我们将编写一些最常见的网络蜘蛛策略和多个用例。如果读者需要使用Scrapy，那么读者也需要了解Xpath、爬取（crawling）、刮取（scraping），以及与Web相关的一些常见概念。在读者实现这些技术之前，我们将会探讨这些主题，确保读者理解了这些技术的实际应用方面。在本章结束之前，读者将对网络爬虫有一个更加深入的理解。

可以使用Scrapy来编写网络爬虫。
了解关于Scrapy的所有主要功能。

7.1　网络爬虫

最大的网络爬虫是谷歌，谷歌爬取了整个万维网（WWW）。谷歌遍历了网络上现存的所有网页，刮取/爬取了全部内容。

网络爬虫是计算机程序，它系统性地、一页又一页地浏览网页，同时刮取/爬取网页中的内容。网络爬虫也可以从所爬取的内容中，解析出待访问的下一组URL。因此，如果这些进程无限期地在整个Web上运行，那么我们可以爬取所有网页。网络爬虫也可以称为蜘蛛、机器人和抓取器（scraper）。这些称呼的意思都是相同的。

在编写第一个网络爬虫之前，我们还要思考几个要点。在每一次网络爬虫遍历网页的时候，我们必须确定我们希望选择和忽略的内容。对于搜索引擎这样的应用程序，我们应该忽略所有的图片、JS文件、CSS文件和其他文件，只集中在可以索引并显示为搜索结果的HTML内容。在一些信息提取引擎中，我们选择了特定标签或特定的网页部分。如果要递归地进行爬取，那么还需要提取网址。这就涉及了爬取策略这个主题。此处，需要确定是以深度优先的方式，还是以广度优先的方式，递归地进行爬取。可以沿着下一个网页中的某个URL，以深度优先的方式前进，直到我们得到了所需的URL，或者可以以广度优先的方式，访问下一个网页中的所有URL，递归地这样操作。 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9781835083451

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

Python和NLTK实现自然语言处理

by Posts & Telecom Press, Nitin Hardeniya

第7章　网络爬取

7.1　网络爬虫

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.