book

Python文本分析

Name: Python文本分析
ISBN: 9787519864446

by Jens Albrecht, Sidharth Ramachandran, Christian Winkler

August 2022

Intermediate to advanced

441 pages

11h 26m

Chinese

China Electric Power Press Ltd.

Read now

Unlock full access

前提知识
本书涉及的主要工具库
推荐书单
排版约定
使用代码示例
O’Reilly在线学习平台（O’Reilly Online Learning）
联系我们
致谢
第1章洞悉文本数据
1.1 本章内容概要
1.2 探索性数据分析
1.3 数据集简介
1.4 案例：使用Pandas获取数据概要
1.4.1 计算列的汇总统计结果
1.4.2 检查缺少的数据
1.4.3 绘制值的分布图
1.4.4 比较各个类别的分布
1.4.5 可视化一段时间内的变化
1.5 案例：构建简单的文本预处理流水线
1.5.1 使用正则表达式分词
1.5.2 删除停用词
1.5.3 通过一行代码处理流水线
1.6 词频分析案例
1.6.1 案例：使用Counter统计单词个数
1.6.2 案例：创建词频图
1.6.3 案例：创建词云
1.6.4 案例：TF-IDF排名
1.7 案例：查找上下文关键字
1.8 案例：n元语法分析
1.9 案例：比较不同时间段和类别的词频
1.9.1 创建词频时间表
1.9.2 创建词频热图
1.10 小结
第2章利用API提取文本
2.1 本章内容概要2.2 应用程序编程接口
2.3 案例：使用requests模块通过API提取数据
2.3.1 分页
2.3.2 速率限制
2.4 案例：使用Tweepy提取推特数据
2.4.1 获取凭证
2.4.2 安装与配置Tweepy
2.4.3 通过Search API提取数据
2.4.4 从用户的时间线中提取数据
2.4.5 通过流API提取数据
2.5 小结
第3章网页抓取与数据提取
3.1 本章内容概要
3.2 抓取网页与提取数据
3.3 路透社新闻存档简介
3.4 URL生成
3.5 案例：下载和解读robots.txt
3.6 案例：从sitemap.xml中寻找URL
3.7 案例：通过RSS查找URL
3.8 下载数据
3.9 案例：使用Python下载HTML页面
3.10 案例：利用wget下载HTML页面
3.11 提取半结构化数据
3.12 案例：通过正则表达式提取数据
3.13 案例：使用HTML解析器提取数据 (1/2)
3.13 案例：使用HTML解析器提取数据 (2/2)
3.14 案例：爬虫
3.14.1 案例介绍
3.14.2 错误处理与生产级质量的软件
3.15 基于密度的文本提取
3.15.1 利用Readability读取路透社的内容
3.15.2 总结基于密度的文本提取
3.16 一体化解决方案
3.17 案例：使用Scrapy抓取路透社的存档
3.18 爬虫面临的难题
3.19 总结和建议
第4章准备统计和机器学习的文本数据
4.1 本章内容概要
4.2 数据预处理流水线
4.3 数据集介绍：Reddit Self-Posts
4.3.1 将数据加载到Pandas4.3.2 案例：标准化属性名称
4.3.3 保存和加载数据框
4.4 清理文本数据
4.4.1 案例：使用正则表达式识别噪声
4.4.2 案例：使用正则表达式剔除噪声
4.4.3 案例：使用textacy规范化字符
4.4.4 案例：使用textacy根据模式遮挡数据
4.5 分词
4.5.1 案例：使用正则表达式分词
4.5.2 NLTK分词
4.5.3 分词建议
4.6 spaCy的语言处理
4.6.1 实例化流水线
4.6.2 处理文本
4.6.3 案例：自定义分词
4.6.4 案例：处理停用词
4.6.5 案例：根据词性提取词元
4.6.6 案例：提取名词短语
4.6.7 案例：提取命名实体
4.7 大型数据集的特征提取
4.7.1 案例：创建一个一体化函数
4.7.2 案例：使用spaCy处理大型数据集
4.7.3 持久地保存结果
4.7.4 有关执行时间的注意事项
4.8 补充说明
4.8.1 语言检测
4.8.2 拼写检查
4.8.3 分词规范化4.9 小结和建议
第5章特征工程与句法相似性
5.1 本章内容概要
5.2 实验数据集
5.3 案例：构建自己的向量化器
5.3.1 枚举词汇表
5.3.2 向量化文档
5.3.3 文档词条矩阵
5.3.4 相似性矩阵
5.4 词袋模型
5.4.1 案例：使用scikit-learn的CountVectorizer
5.4.2 案例：计算相似性
5.5 TF-IDF模型
5.5.1 利用TfidfTransformer优化文档向量
5.5.2 介绍ABC数据集
5.5.3 案例：降低特征维度
5.5.4 案例：通过具体化改进特征
5.5.5 案例：使用词元向量化文本
5.5.6 案例：限定单词类型
5.5.7 案例：删除最常见的单词
5.5.8 案例：通过n元语法添加上下文
5.6 ABC数据集的句法相似性
5.6.1 案例：查找与杜撰的标题最相似的标题
5.6.2 案例：查找大型语料库中最相似的两个文档
5.6.3 案例：查找相关词
5.6.4 有关语法相似性分析等运行时间较长的程序的提示
5.7 小结
第6章文本分类算法
6.1 本章内容概要
6.2 Java开发工具错误数据集介绍
6.3 案例：构建文本分类系统
6.3.1 第一步：准备数据
6.3.2 第二步：分割训练与测试数据集
6.3.3 第三步：训练机器学习模型
6.3.4 第四步：模型评估 (1/2)
6.3.4 第四步：模型评估 (2/2)
6.4 文本分类的最终解决方案
6.5 案例：利用交叉验证来评估实际的准确率
6.6 案例：通过网格搜索微调超参数
6.7 案例回顾与小结
6.8 小结
6.9 补充阅读
第7章解释文本分类器
7.1 本章内容概要
7.2 案例：使用预测概率确定分类置信度
7.3 案例：衡量预测模型中特征的重要性
7.4 案例：使用LIME解释分类结果 (1/2)
7.4 案例：使用LIME解释分类结果 (2/2)
7.5 案例：使用ELI5介绍分类结果
7.6 案例：使用Anchor解释分类结果
7.6.1 使用遮盖后的单词分布
7.6.2 使用实际的单词
7.7 小结
第8章非监督学习：主题建模与聚类
8.1 本章内容概要
8.2 数据集：联合国一般性辩论8.2.1 查看语料库的统计信息
8.2.2 准备工作
8.3 非负矩阵分解（NMF）
8.3.1 案例：使用NMF创建文档的主题模型
8.3.2 案例：使用NMF创建段落的主题模型
8.4 潜在语义分析/索引
8.5 隐含狄利克雷分布
8.5.1 案例：使用LDA生成段落的主题模型
8.5.2 案例：可视化LDA的结果
8.6 案例：使用词云来展示和比较主题模型
8.7 案例：计算文档的主题分布以及随时间的变化
8.8 Gensim主题建模
8.8.1 案例：Gensim的数据准备
8.8.2 案例：利用Gensim执行非负矩阵分解
8.8.3 案例：利用Gensim执行LDA
8.8.4 案例：计算连贯分数
8.8.5 案例：最佳主题数量
8.8.6 案例：使用Gensim创建层次狄利克雷过程
8.9 案例：使用聚集来挖掘文本数据的结构
8.10 进一步的想法
8.11 建议8.12 小结
第9章文本摘要
9.1 本章内容概要9.2 文本摘要
9.2.1 提取式摘要
9.2.2 数据的预处理
9.3 案例：通过主题表示提取文本的摘要
9.3.1 通过TF-IDF识别重要的单词
9.3.2 LSA算法
9.4 案例：通过指示表示总结文本
9.5 测量文本摘要方法的表现
9.6 案例：使用机器学习生成文本摘要
9.6.1 第一步：创建目标标签
9.6.2 第二步：添加特征来辅助模型预测
9.6.3 第三步：构建机器学习模型
9.7 小结
9.8 补充阅读
第10章通过单词嵌入探索语义关系
10.1 本章内容概要
10.2 语义嵌入
10.2.1 单词嵌入
10.2.2 单词嵌入的类比推理
10.2.3 嵌入的类型
10.3 案例：预训练模型的相似性查询
10.3.1 加载预训练模型
10.3.2 相似性查询
10.4 案例：训练与评估自己的嵌入
10.4.1 数据准备
10.4.2 案例：使用Gensim训练模型
10.4.3 案例：评估不同的模型
10.5 案例：可视化嵌入
10.5.1 案例：降维
10.5.2 案例：使用TensorFlow的嵌入投影
10.5.3 案例：构建相似树
10.6 小结
10.7 补充阅读
第11章文本数据的情感分析
11.1 本章内容概要
11.2 情感分析
11.3 亚马逊客户评论数据集
11.4 案例：基于词典的情感分析
11.4.1 Bing Liu lexicon
11.4.2 基于词典的方法的缺点
11.5 监督学习方法
11.6 案例：向量化文本数据并应用监督机器学习算法
11.6.1 第一步：数据准备
11.6.2 第二步：分割训练数据集与测试数据集
11.6.3 第三步：文本向量化
11.6.4 第四步：训练机器学习模型
11.7 深度学习的预训练语言模型
11.8 案例：迁移学习技术与预训练语言模型
11.8.1 第一步：加载模型与分词
11.8.2 第二步：训练模型
11.8.3 第三步：模型评估
11.9 小结
11.10 补充阅读
第12章知识图谱
12.1 本章内容概要
12.2 知识图谱
12.3 数据集简介
12.4 识别命名实体
12.4.1 案例：基于规则的命名实体识别
12.4.2 案例：规范化命名实体
12.4.3 合并实体词语
12.5 共指消解
12.5.1 案例：spaCy的词语扩展
12.5.2 案例：别名消解
12.5.3 案例：消解名称的多样性
12.5.4 案例：利用NeuralCoref执行回指消解
12.5.5 命名规范化
12.5.6 实体链接
12.6 案例：创建共现图
12.6.1 从文档中提取共现
12.6.2 使用Gephi可视化共现图
12.7 关系提取
12.7.1 案例：通过短语匹配提取关系
12.7.2 案例：使用依存树提取关系
12.8 创建知识图
12.9 小结
12.10 补充阅读
第13章文本分析的生产应用
13.1 本章内容概要
13.2 利用Conda创建可复制的Python环境
13.3 案例：通过容器创建可复制的环境 (1/2)
13.3 案例：通过容器创建可复制的环境 (2/2)
13.4 案例：创建文本分析模型的REST API (1/2)
13.4 案例：创建文本分析模型的REST API (2/2)
13.5 案例：通过云服务部署和扩展API
13.6 案例：版本自动升级与自动部署构建
13.7 小结
13.8 补充阅读
作者介绍
封面介绍

Content preview from Python文本分析

特征工程与句法相似性

｜

171

5.6.4

有关语法相似性分析等运行时间较长的程序的提示

下列是我们针对运行时间较长的程序，给出的一些效率方面的提示：

通过基准测试避免长时间的等待

在针对整个数据集执行多次计算之前，首先应该运行单次计算，并据此估算整

个算法运行的总耗时，以及所需的内存。你应该了解运行的时间和内存随着复

杂度的增加而增长的速度（呈线性、多项式、指数增长）。否则，就有可能等

待了几个小时（甚至几天）之后，计算仅仅完成了

10%

时内存就耗尽了。

设法将问题分割成小块

将问题分割成小块有很多好处。在查找新闻语料库中最相似的文档时，我们看

到整个过程仅花费了大约

分钟就运行完成了，并且没有占用大量内存。如果

采用直接计算的方法，那么很有可能在运行了很长时间后，我们才发现内存不

够用。此外，将问题分成小块，可以方便你使用多核体系结构，甚至可以将问

题分发到多台计算机上。

5.7

小结

在本章中，我们介绍了有关向量化与语法相似性的案例。几乎所有涉及文本的机器

学习项目（例如分类，主题建模和情感检测）本质上都需要文本向量。

事实证明，特征工程是一个非常强大的工具，可以帮助这些复杂的机器学习算法实

现出色的性能。因此，你应该尝试各种不同的向量化器，实验各个参数，然后观察

生成的特征空间。向量化的方法和参数非常繁杂，而且各有各的用途，尽管这方面

的优化需要花费一定的时间，但通常都能获得丰厚的回报，因为分析流水线中后续

步骤的结果都将大大受益。

本章中的相似度只是文档相似性的一个示例。如果你的需求更复杂，则可以通过后

续章节学习更复杂的相似性算法。 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9787519864446

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

Python文本分析

by Jens Albrecht, Sidharth Ramachandran, Christian Winkler

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

More than 5,000 organizations count on O’Reilly

Julian F.

Addison B.

Amir M.

Mark W.

You might also like

精益AI

网络安全评估（第三版）

构建知识图谱

写给系统管理员的Python脚本编程指南

Publisher Resources