book

Python和NLTK实现自然语言处理

Name: Python和NLTK实现自然语言处理
ISBN: 9781835083451

by Posts & Telecom Press, Nitin Hardeniya

February 2024

Intermediate to advanced

649 pages

9h 58m

Chinese

Packt Publishing

Read now

Unlock full access

版权信息
版权
版权声明
内容提要
译者序
前言
资源与支持
模块1 NLTK基础知识
第1章自然语言处理简介
1.1 为什么要学习NLP1.2 从Python的基本知识开始1.2.1 列表1.2.2 自助1.2.3 正则表达式1.2.4 词典1.2.5 编写函数1.3 NLTK1.4 试一试1.5 本章小结
第2章文本的整理和清洗
2.1 文本整理2.2 文本清洗2.3 句子拆分器2.4 标记解析2.5 词干提取2.6 词形还原2.7 停用词删除2.8 生僻字删除2.9 拼写校正2.10 试一试2.11 本章小结

第3章词性标注
3.1 什么是词性标注3.1.1 斯坦福标注器3.1.2 深入了解标注器3.1.3 序列标注器3.1.4 布里尔标注器3.1.5 基于标注器的机器学习3.2 命名实体识别NER标注器3.3 试一试3.4 本章小结
第4章对文本的结构进行语法分析
4.1 浅层语法分析与深层语法分析4.2 语法分析的两种方法4.3 为什么需要语法分析4.4 不同类型的语法分析器4.4.1 递归下降的语法分析器4.4.2 移位归约语法分析器4.4.3 图表语法分析器4.4.4 正则表达式语法分析器4.5 依存分析4.6 组块化4.7 信息抽取4.7.1 命名实体识别4.7.2 关系抽取4.8 本章小结
第5章 NLP应用
5.1 构建第一个NLP应用5.2 其他的NLP应用5.2.1 机器翻译5.2.2 统计机器翻译5.2.3 信息检索5.2.4 语音识别5.2.5 文本分类5.2.6 信息提取5.2.7 问答系统5.2.8 对话系统5.2.9 词义消歧5.2.10 主题建模5.2.11 语言检测5.2.12 光学字符识别5.3 本章小结
第6章文本分类
6.1 机器学习6.2 文本分类6.3 采样6.3.1 朴素贝叶斯6.3.2 决策树6.3.3 随机梯度下降6.3.4 逻辑回归6.3.5 支持向量机6.4 随机森林算法6.5 文本聚类K均值算法6.6 文本的主题建模安装gensim6.7 参考资料6.8 本章小结
第7章网络爬取
7.1 网络爬虫7.2 编写第一个爬虫程序7.3 Scra py中的数据流7.3.1 Scrapy命令行界面7.3.2 项7.4 站点地图蜘蛛7.5 项管道7.6 外部参考7.7 本章小结
第8章与其他Python库一同使用NLTK
8.1 NumPy8.1.1 ndarray8.1.2 基本操作8.1.3 从数组中提取数据8.1.4 复杂的矩阵运算8.2 SciP y8.2.1 线性代数8.2.2 特征值和特征向量8.2.3 稀疏矩阵8.2.4 优化8.3 Pandas8.3.1 读取数据8.3.2 时序数据8.3.3 列转换8.3.4 噪声数据8.4 Matplotlib8.4.1 subplot8.4.2 添加轴8.4.3 散点图8.4.4 柱状图8.4.5 3D图8.5 外部参考8.6 本章小结
第9章使用Python进行社交媒体挖掘
9.1 数据收集推特9.2 数据提取热门话题9.3 地理可视化9.3.1 影响者检测9.3.2 Facebook9.3.3 影响者的朋友9.4 本章小结
第10章大规模的文本挖掘
10.1 在Hadoop上使用Python的不同方法10.1.1 Python的流10.1.2 Hive/Pig UDF10.1.3 流包装器10.2 在Hadoop上运行NLTK10.2.1 UDF10.2.2 Python流10.3 在Hadoop上运行scikit-learn10.4 PySpark10.5 本章小结
模块2 使用Python 3的NLTK 3进行文本处理
第1章标记文本和WordNet的基础
1.1 引言1.2 将文本标记成句子1.2.1 准备工作1.2.2 工作方式1.2.3 工作原理1.2.4 更多信息1.2.5 请参阅1.3 将句子标记成单词1.3.1 工作方式1.3.2 工作原理1.3.3 更多信息1.3.4 请参阅1.4 使用正则表达式标记语句1.4.1 准备工作1.4.2 工作方式1.4.3 工作原理1.4.4 更多信息1.4.5 请参阅1.5 训练语句标记生成器1.5.1 准备工作1.5.2 工作方式1.5.3 工作原理1.5.4 更多信息1.5.5 请参阅1.6 在已标记的语句中过滤停用词1.6.1 准备工作1.6.2 工作方式1.6.3 工作原理1.6.4 更多信息1.6.5 请参阅1.7 查找WordNet中单词的Synset1.7.1 准备工作1.7.2 工作方式1.7.3 工作原理1.7.4 更多信息1.7.5 请参阅1.8 在WordNet中查找词元和同义词1.8.1 工作方式1.8.2 工作原理1.8.3 更多信息1.8.4 请参阅1.9 计算WordNet和Synset的相似度1.9.1 工作方式1.9.2 工作原理1.9.3 更多信息1.9.4 请参阅1.10 发现单词搭配1.10.1 准备工作1.10.2 工作方式1.10.3 工作原理1.10.4 更多信息1.10.5 请参阅
第2章替换和校正单词
2.1 引言2.2 词干提取2.2.1 工作方式2.2.2 工作原理2.2.3 更多信息2.2.4 请参阅2.3 使用WordNet进行词形还原2.3.1 准备工作2.3.2 工作方式2.3.3 工作原理2.3.4 更多信息2.3.5 请参阅2.4 基于匹配的正则表达式替换单词2.4.1 准备工作2.4.2 工作方式2.4.3 工作原理2.4.4 更多信息2.4.5 请参阅2.5 移除重复字符2.5.1 准备工作2.5.2 工作方式2.5.3 工作原理2.5.4 更多信息2.5.5 请参阅2.6 使用Enchant进行拼写校正2.6.1 准备工作2.6.2 工作方式2.6.3 工作原理2.6.4 更多信息2.6.5 请参阅2.7 替换同义词2.7.1 准备工作2.7.2 工作方式2.7.3 工作原理2.7.4 更多信息2.7.5 请参阅2.8 使用反义词替换否定形式2.8.1 工作方式2.8.2 工作原理2.8.3 更多信息2.8.4 请参阅
第3章创建语料库
3.1 引言3.2 建立自定义语料库3.2.1 准备工作3.2.2 工作方式3.2.3 工作原理3.2.4 更多信息3.2.5 请参阅3.3 创建词汇表语料库3.3.1 准备工作3.3.2 工作方式3.3.3 工作原理3.3.4 更多信息3.3.5 请参阅3.4 创建已标记词性单词的语料库3.4.1 准备工作3.4.2 工作方式3.4.3 工作原理3.4.4 更多信息3.4.5 请参阅3.5 创建已组块短语的语料库3.5.1 准备工作3.5.2 工作方式3.5.3 工作原理3.5.4 更多信息3.5.5 请参阅3.6 创建已分类文本的语料库3.6.1 准备工作3.6.2 工作方式3.6.3 工作原理3.6.4 更多信息3.6.5 请参阅3.7 创建已分类组块语料库读取器3.7.1 准备工作3.7.2 工作方式3.7.3 工作原理3.7.4 更多信息3.7.5 请参阅3.8 懒惰语料库加载3.8.1 工作方式3.8.2 工作原理3.8.3 更多信息3.9 创建自定义语料库视图3.9.1 工作方式3.9.2 工作原理3.9.3 更多信息3.9.4 请参阅3.10 创建基于MongoDB的语料库读取器3.10.1 准备工作3.10.2 工作方式3.10.3 工作原理3.10.4 更多信息3.10.5 请参阅3.11 在加锁文件的情况下编辑语料库3.11.1 准备工作3.11.2 工作方式3.11.3 工作原理
第4章词性标注
4.1 引言4.2 默认标注4.2.1 准备工作4.2.2 工作方式4.2.3 工作原理4.2.4 更多信息4.2.5 请参阅4.3 训练一元组词性标注器4.3.1 工作方式4.3.2 工作原理4.3.3 更多信息4.3.4 请参阅4.4 回退标注的组合标注器4.4.1 工作方式4.4.2 工作原理4.4.3 更多信息4.4.4 请参阅4.5 训练和组合N元标注器4.5.1 准备工作4.5.2 工作方式4.5.3 工作原理4.5.4 更多信息4.5.5 请参阅4.6 创建似然单词标签的模型4.6.1 工作方式4.6.2 工作原理4.6.3 更多信息4.6.4 请参阅4.7 使用正则表达式标注4.7.1 准备工作4.7.2 工作方式4.7.3 工作原理4.7.4 更多信息4.7.5 请参阅4.8 词缀标签4.8.1 工作方式4.8.2 工作原理4.8.3 更多信息4.8.4 请参阅4.9 训练布里尔标注器4.9.1 工作方式4.9.2 工作原理4.9.3 更多信息4.9.4 请参阅4.10 训练TnT标注器4.10.1 工作方式4.10.2 工作原理4.10.3 更多信息4.10.4 请参阅4.11 使用WordNet进行标注4.11.1 准备工作4.11.2 工作方式4.11.3 工作原理4.11.4 请参阅4.12 标注专有名词4.12.1 工作方式4.12.2 工作原理4.12.3 请参阅4.13 基于分类器的标注4.13.1 工作方式4.13.2 工作原理4.13.3 更多信息4.13.4 请参阅4.14 使用NLTK训练器训练标注器4.14.1 工作方式4.14.2 工作原理4.14.3 更多信息4.14.4 请参阅
第5章提取组块
5.1 引言5.2 使用正则表达式组块和隔断5.2.1 准备工作5.2.2 工作方式5.2.3 工作原理5.2.4 更多信息5.2.5 请参阅5.3 使用正则表达式合并和拆分组块5.3.1 工作方式5.3.2 工作原理5.3.3 更多信息5.3.4 请参阅5.4 使用正则表达式扩展和删除组块5.4.1 工作方式5.4.2 工作原理5.4.3 更多信息5.4.4 请参阅5.5 使用正则表达式进行部分解析5.5.1 工作方式5.5.2 工作原理5.5.3 更多信息5.5.4 请参阅5.6 训练基于标注器的组块器5.6.1 工作方式5.6.2 工作原理5.6.3 更多信息5.6.4 请参阅5.7 基于分类的分块5.7.1 工作方式5.7.2 工作原理5.7.3 更多信息5.7.4 请参阅5.8 提取命名实体5.8.1 工作方式5.8.2 工作原理5.8.3 更多信息5.8.4 请参阅5.9 提取专有名词组块5.9.1 工作方式5.9.2 工作原理5.9.3 更多信息5.10 提取部位组块5.10.1 工作方式5.10.2 工作原理5.10.3 更多信息5.10.4 请参阅5.11 训练命名实体组块器5.11.1 工作方式5.11.2 工作原理5.11.3 更多信息5.11.4 请参阅5.12 使用NLTK训练器训练组块器5.12.1 工作方式5.12.2 工作原理5.12.3 更多信息5.12.4 请参阅
第6章转换组块与树
6.1 引言6.2 过滤句子中无意义的单词6.2.1 准备工作6.2.2 工作方式6.2.3 工作原理6.2.4 更多信息6.2.5 请参阅6.3 纠正动词形式6.3.1 准备工作6.3.2 工作方式6.3.3 工作原理6.3.4 请参阅6.4 交换动词短语6.4.1 工作方式6.4.2 工作原理6.4.3 更多信息6.4.4 请参阅6.5 交换名词基数6.5.1 工作方式6.5.2 工作原理6.5.3 请参阅6.6 交换不定式短语6.6.1 工作方式6.6.2 工作原理6.6.3 更多信息6.6.4 请参阅6.7 单数化复数名词6.7.1 工作方式6.7.2 工作原理6.7.3 请参阅6.8 链接组块变换6.8.1 工作方式6.8.2 工作原理6.8.3 更多信息6.8.4 请参阅6.9 将组块树转换为文本6.9.1 工作方式6.9.2 工作原理6.9.3 更多信息6.9.4 请参阅6.10 平展深度树6.10.1 准备工作6.10.2 工作方式6.10.3 工作原理6.10.4 更多信息6.10.5 请参阅6.11 创建浅树6.11.1 工作方式6.11.2 工作原理6.11.3 请参阅6.12 转换树标签6.12.1 准备工作6.12.2 工作方式6.12.3 工作原理6.12.4 请参阅
第7章文本分类
7.1 引言7.2 词袋特征提取7.2.1 工作方式7.2.2 工作原理7.2.3 更多信息7.2.4 请参阅7.3 训练朴素贝叶斯分类器7.3.1 准备工作7.3.2 工作方式7.3.3 工作原理7.3.4 更多信息7.3.5 请参阅7.4 训练决策树分类器7.4.1 工作方式7.4.2 工作原理7.4.3 更多信息7.4.4 请参阅7.5 训练最大熵分类器7.5.1 准备工作7.5.2 工作方式7.5.3 工作原理7.5.4 更多信息7.5.5 请参阅7.6 训练scikit-learn分类器7.6.1 准备工作7.6.2 工作方式7.6.3 工作原理7.6.4 更多信息7.6.5 请参阅7.7 衡量分类器的精准率和召回率7.7.1 工作方式7.7.2 工作原理7.7.3 更多信息7.7.4 请参阅7.8 计算高信息量单词7.8.1 工作方式7.8.2 工作原理7.8.3 更多信息7.8.4 请参阅7.9 使用投票组合分类器7.9.1 准备工作7.9.2 工作方式7.9.3 工作原理7.9.4 请参阅7.10 使用多个二元分类器分类7.10.1 准备工作7.10.2 工作方式7.10.3 工作原理7.10.4 更多信息7.10.5 请参阅7.11 使用NLTK训练器训练分类器7.11.1 工作方式7.11.2 工作原理7.11.3 更多信息7.11.4 请参阅
第8章分布式进程和大型数据集的处理
8.1 引言8.2 使用execnet进行分布式标注8.2.1 准备工作8.2.2 工作方式8.2.3 工作原理8.2.4 更多内容8.2.5 请参阅8.3 使用execnet进行分布式组块8.3.1 准备工作8.3.2 工作方式8.3.3 工作原理8.3.4 更多内容8.3.5 请参阅8.4 使用execnet并行处理列表8.4.1 工作方式8.4.2 工作原理8.4.3 更多内容8.4.4 请参阅8.5 在Redis中存储频率分布8.5.1 准备工作8.5.2 工作方式8.5.3 工作原理8.5.4 更多内容8.5.5 请参阅8.6 在Redis中存储条件频率分布8.6.1 准备工作8.6.2 工作方式8.6.3 工作原理8.6.4 更多内容8.6.5 请参阅8.7 在Redis中存储有序字典8.7.1 准备工作8.7.2 工作方式8.7.3 工作原理8.7.4 更多内容8.7.5 请参阅8.8 使用Redis和execnet进行分布式单词评分8.8.1 准备工作8.8.2 工作方式8.8.3 工作原理8.8.4 更多内容8.8.5 请参阅
第9章解析特定的数据类型
9.1 引言9.2 使用dateutil解析日期和时间9.2.1 准备工作9.2.2 工作方式9.2.3 工作原理9.2.4 更多信息9.2.5 请参阅9.3 时区的查找和转换9.3.1 准备工作9.3.2 工作方式9.3.3 工作原理9.3.4 更多信息9.3.5 请参阅9.4 使用lxml从HTML中提取URL9.4.1 准备工作9.4.2 工作方式9.4.3 工作原理9.4.4 更多信息9.4.5 请参阅9.5 清理和剥离HTML9.5.1 准备工作9.5.2 工作方式9.5.3 工作原理9.5.4 更多信息9.5.5 请参阅9.6 使用Beautiful Soup转换HTML实体9.6.1 准备工作9.6.2 工作方式9.6.3 工作原理9.6.4 更多信息9.6.5 请参阅9.7 检测和转换字符编码9.7.1 准备工作9.7.2 工作方式9.7.3 工作原理9.7.4 更多信息9.7.5 请参阅
附录A 宾州treebank词性标签
模块3 使用Python掌握自然语言处理
第1章使用字符串
1.1 标记化1.1.1 将文本标记为句子1.1.2 其他语言文字的标记化1.1.3 将句子标记为单词1.1.4 使用TreebankWordTokenizer进行标记化1.1.5 使用正则表达式进行标记化1.2 规范化1.2.1 消除标点符号1.2.2 转化为小写和大写1.2.3 处理停用词1.2.4 计算英语中的停用词1.3 替代和纠正标记1.3.1 使用正则表达式替换单词1.3.2 使用一个文本替换另一个文本的示例1.3.3 在标记化之前进行替代1.3.4 处理重复的字符1.3.5 删除重复字符的示例1.3.6 使用单词的同义词替换单词1.4 在文本上应用齐夫定律1.5 相似性量度1.5.1 使用编辑距离算法应用相似性量度1.5.2 使用杰卡德系数应用相似性量度1.5.3 使用史密斯-沃特曼算法应用相似性量度1.5.4 其他字符串相似性指标1.6 本章小结
第2章统计语言模型
2.1 单词频率2.1.1 对给定文本进行最大似然估计2.1.2 隐马尔可夫模型估计2.2 在MLE模型上应用平滑2.2.1 加一平滑法2.2.2 古德-图灵算法2.2.3 聂氏估计2.2.4 威滕·贝尔估计2.3 为MLE指定回退机制2.4 应用数据插值获得混合和匹配2.5 应用困惑度评估语言模型2.6 在建模语言中应用梅特罗波利斯-黑斯廷斯算法2.7 在语言处理中应用吉布斯采样2.8 本章小结
第3章词语形态学——试一试
3.1 词语形态学3.2 词根还原器3.3 词形还原3.4 开发用于非英语语言的词根还原器3.5 词语形态分析器3.6 词语形态生成器3.7 搜索引擎3.8 本章小结
第4章词性标注——识别单词
4.1 词性标注默认标注4.2 创建POS标注的语料库4.3 选择某个机器学习算法4.4 涉及n元组方法的统计建模4.5 使用POS标注的语料库开发组块器4.6 本章小结
第5章解析——分析训练数据
5.1 解析5.2 构建树库5.3 从树库中提取上下文无关文法的规则5.4 从CFG中创建概率上下文无关的文法5.5 CYK图解析算法5.6 厄雷图解析算法5.7 本章小结
第6章语义分析——意义重大
6.1 语义分析6.1.1 NER简介6.1.2 使用隐马尔可夫模型的NER系统6.1.3 使用机器学习工具包训练NER6.1.4 使用POS标注的NER6.2 从Wordnet中生成同义词集ID6.3 使用Wordnet消除歧义6.4 本章小结
第7章情感分析——我很高兴
7.1 情感分析使用NER的情感分析7.2 使用机器学习的情感分析NER系统的评价7.3 本章小结
第8章信息检索——访问信息
8.1 信息检索8.1.1 停用词删除8.1.2 利用向量空间模型进行信息检索8.2 向量空间评分以及与查询操作器交互8.3 利用隐含语义索引开发IR系统8.4 文本摘要8.5 问答系统8.6 本章小结
第9章话语分析——知识就是信仰
9.1 话语分析9.1.1 使用定中心理论进行话语分析9.1.2 回指解析9.2 本章小结
第10章 NLP系统的评估——性能分析
10.1 对NLP系统进行评估的需求10.1.1 NLP工具（POS标注器、词干还原器和形态分析器）的评估10.1.2 使用黄金数据评估解析器10.2 IR系统的评估10.3 错误识别的指标10.4 基于词汇匹配的指标10.5 基于语法匹配的指标10.6 使用浅层语义匹配的指标10.7 本章小结
参考书目

Content preview from Python和NLTK实现自然语言处理

第3章　创建语料库

本章将介绍以下内容。

建立自定义语料库。
创建词汇表语料库。
创建已标记词性单词的语料库。
创建已组块短语的语料库。
创建已分类文本的语料库。
创建已分类组块语料库的读取器。
懒惰语料库加载。
创建自定义语料库视图。
创建基于MongoDB的语料库读取器。
使用文件加锁的语料库编辑。

3.1　引言

本章将介绍如何使用语料库读取器，以及如何创建自定义语料库。如果你希望训练自己的模型，如词性标记器或文本分类器，那么你需要创建自定义语料库来进行训练。后续章节将介绍模型训练。

现在，你将学习如何使用NLTK自带的现有语料库数据。在后面章节中，当获取训练数据时，如果需要访问语料库，这至关重要。你已经访问过该模块第1章中的WordNet语料库。本章将介绍更多的语料库。

本章还将讨论如何创建自定义的语料库读取器，当NLTK不能识别语料库的文件格式时，或如果语料库不以文件的形式存储，而是在存储在诸如MongoDB之类的数据库中，可以使用语料库读取器。熟悉该模块第1章所介绍的标记化是至关重要的。

3.2　建立自定义语料库

语料库（corpus）是文本文档的集合，corpora是corpus的复数形式。这是拉丁词，意思是body（身体），在此情况下，指的是文本主体（body of text）。因此，自定义语料库实际上就是目录中的一堆文本文件，并且这个目录还常常伴随着许多其他文本文件的目录。

3.2.1　准备工作

你应该遵循NLTK网站上的说明，安装了NLTK数据包。假设数据安装到了Windows系统上的C:\nltk_data中，或者Linux系统、UNIX系统和Mac OS X上的/usr/share/ nltk_data中。

3.2.2　工作方式

NLTK在nltk.data.path中定义了数据目录或路径的列表。自定义语料库必须存在于其中一个路径，这样它才可以被NLTK找到。为了避免与官方数据包冲突，这里将在主目录中创建自定义的nltk_data目录。以下Python代码创建此目录并验证这个目录在nltk.data.path指定的已知路径列表中。 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9781835083451

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

Python和NLTK实现自然语言处理

by Posts & Telecom Press, Nitin Hardeniya

第3章　创建语料库

3.1　引言