book

Python文本分析

Name: Python文本分析
ISBN: 9787519864446

by Jens Albrecht, Sidharth Ramachandran, Christian Winkler

August 2022

Intermediate to advanced

441 pages

11h 26m

Chinese

China Electric Power Press Ltd.

Read now

Unlock full access

前提知识
本书涉及的主要工具库
推荐书单
排版约定
使用代码示例
O’Reilly在线学习平台（O’Reilly Online Learning）
联系我们
致谢
第1章洞悉文本数据
1.1 本章内容概要
1.2 探索性数据分析
1.3 数据集简介
1.4 案例：使用Pandas获取数据概要
1.4.1 计算列的汇总统计结果
1.4.2 检查缺少的数据
1.4.3 绘制值的分布图
1.4.4 比较各个类别的分布
1.4.5 可视化一段时间内的变化
1.5 案例：构建简单的文本预处理流水线
1.5.1 使用正则表达式分词
1.5.2 删除停用词
1.5.3 通过一行代码处理流水线
1.6 词频分析案例
1.6.1 案例：使用Counter统计单词个数
1.6.2 案例：创建词频图
1.6.3 案例：创建词云
1.6.4 案例：TF-IDF排名
1.7 案例：查找上下文关键字
1.8 案例：n元语法分析
1.9 案例：比较不同时间段和类别的词频
1.9.1 创建词频时间表
1.9.2 创建词频热图
1.10 小结
第2章利用API提取文本
2.1 本章内容概要2.2 应用程序编程接口
2.3 案例：使用requests模块通过API提取数据
2.3.1 分页
2.3.2 速率限制
2.4 案例：使用Tweepy提取推特数据
2.4.1 获取凭证
2.4.2 安装与配置Tweepy
2.4.3 通过Search API提取数据
2.4.4 从用户的时间线中提取数据
2.4.5 通过流API提取数据
2.5 小结
第3章网页抓取与数据提取
3.1 本章内容概要
3.2 抓取网页与提取数据
3.3 路透社新闻存档简介
3.4 URL生成
3.5 案例：下载和解读robots.txt
3.6 案例：从sitemap.xml中寻找URL
3.7 案例：通过RSS查找URL
3.8 下载数据
3.9 案例：使用Python下载HTML页面
3.10 案例：利用wget下载HTML页面
3.11 提取半结构化数据
3.12 案例：通过正则表达式提取数据
3.13 案例：使用HTML解析器提取数据 (1/2)
3.13 案例：使用HTML解析器提取数据 (2/2)
3.14 案例：爬虫
3.14.1 案例介绍
3.14.2 错误处理与生产级质量的软件
3.15 基于密度的文本提取
3.15.1 利用Readability读取路透社的内容
3.15.2 总结基于密度的文本提取
3.16 一体化解决方案
3.17 案例：使用Scrapy抓取路透社的存档
3.18 爬虫面临的难题
3.19 总结和建议
第4章准备统计和机器学习的文本数据
4.1 本章内容概要
4.2 数据预处理流水线
4.3 数据集介绍：Reddit Self-Posts
4.3.1 将数据加载到Pandas4.3.2 案例：标准化属性名称
4.3.3 保存和加载数据框
4.4 清理文本数据
4.4.1 案例：使用正则表达式识别噪声
4.4.2 案例：使用正则表达式剔除噪声
4.4.3 案例：使用textacy规范化字符
4.4.4 案例：使用textacy根据模式遮挡数据
4.5 分词
4.5.1 案例：使用正则表达式分词
4.5.2 NLTK分词
4.5.3 分词建议
4.6 spaCy的语言处理
4.6.1 实例化流水线
4.6.2 处理文本
4.6.3 案例：自定义分词
4.6.4 案例：处理停用词
4.6.5 案例：根据词性提取词元
4.6.6 案例：提取名词短语
4.6.7 案例：提取命名实体
4.7 大型数据集的特征提取
4.7.1 案例：创建一个一体化函数
4.7.2 案例：使用spaCy处理大型数据集
4.7.3 持久地保存结果
4.7.4 有关执行时间的注意事项
4.8 补充说明
4.8.1 语言检测
4.8.2 拼写检查
4.8.3 分词规范化4.9 小结和建议
第5章特征工程与句法相似性
5.1 本章内容概要
5.2 实验数据集
5.3 案例：构建自己的向量化器
5.3.1 枚举词汇表
5.3.2 向量化文档
5.3.3 文档词条矩阵
5.3.4 相似性矩阵
5.4 词袋模型
5.4.1 案例：使用scikit-learn的CountVectorizer
5.4.2 案例：计算相似性
5.5 TF-IDF模型
5.5.1 利用TfidfTransformer优化文档向量
5.5.2 介绍ABC数据集
5.5.3 案例：降低特征维度
5.5.4 案例：通过具体化改进特征
5.5.5 案例：使用词元向量化文本
5.5.6 案例：限定单词类型
5.5.7 案例：删除最常见的单词
5.5.8 案例：通过n元语法添加上下文
5.6 ABC数据集的句法相似性
5.6.1 案例：查找与杜撰的标题最相似的标题
5.6.2 案例：查找大型语料库中最相似的两个文档
5.6.3 案例：查找相关词
5.6.4 有关语法相似性分析等运行时间较长的程序的提示
5.7 小结
第6章文本分类算法
6.1 本章内容概要
6.2 Java开发工具错误数据集介绍
6.3 案例：构建文本分类系统
6.3.1 第一步：准备数据
6.3.2 第二步：分割训练与测试数据集
6.3.3 第三步：训练机器学习模型
6.3.4 第四步：模型评估 (1/2)
6.3.4 第四步：模型评估 (2/2)
6.4 文本分类的最终解决方案
6.5 案例：利用交叉验证来评估实际的准确率
6.6 案例：通过网格搜索微调超参数
6.7 案例回顾与小结
6.8 小结
6.9 补充阅读
第7章解释文本分类器
7.1 本章内容概要
7.2 案例：使用预测概率确定分类置信度
7.3 案例：衡量预测模型中特征的重要性
7.4 案例：使用LIME解释分类结果 (1/2)
7.4 案例：使用LIME解释分类结果 (2/2)
7.5 案例：使用ELI5介绍分类结果
7.6 案例：使用Anchor解释分类结果
7.6.1 使用遮盖后的单词分布
7.6.2 使用实际的单词
7.7 小结
第8章非监督学习：主题建模与聚类
8.1 本章内容概要
8.2 数据集：联合国一般性辩论8.2.1 查看语料库的统计信息
8.2.2 准备工作
8.3 非负矩阵分解（NMF）
8.3.1 案例：使用NMF创建文档的主题模型
8.3.2 案例：使用NMF创建段落的主题模型
8.4 潜在语义分析/索引
8.5 隐含狄利克雷分布
8.5.1 案例：使用LDA生成段落的主题模型
8.5.2 案例：可视化LDA的结果
8.6 案例：使用词云来展示和比较主题模型
8.7 案例：计算文档的主题分布以及随时间的变化
8.8 Gensim主题建模
8.8.1 案例：Gensim的数据准备
8.8.2 案例：利用Gensim执行非负矩阵分解
8.8.3 案例：利用Gensim执行LDA
8.8.4 案例：计算连贯分数
8.8.5 案例：最佳主题数量
8.8.6 案例：使用Gensim创建层次狄利克雷过程
8.9 案例：使用聚集来挖掘文本数据的结构
8.10 进一步的想法
8.11 建议8.12 小结
第9章文本摘要
9.1 本章内容概要9.2 文本摘要
9.2.1 提取式摘要
9.2.2 数据的预处理
9.3 案例：通过主题表示提取文本的摘要
9.3.1 通过TF-IDF识别重要的单词
9.3.2 LSA算法
9.4 案例：通过指示表示总结文本
9.5 测量文本摘要方法的表现
9.6 案例：使用机器学习生成文本摘要
9.6.1 第一步：创建目标标签
9.6.2 第二步：添加特征来辅助模型预测
9.6.3 第三步：构建机器学习模型
9.7 小结
9.8 补充阅读
第10章通过单词嵌入探索语义关系
10.1 本章内容概要
10.2 语义嵌入
10.2.1 单词嵌入
10.2.2 单词嵌入的类比推理
10.2.3 嵌入的类型
10.3 案例：预训练模型的相似性查询
10.3.1 加载预训练模型
10.3.2 相似性查询
10.4 案例：训练与评估自己的嵌入
10.4.1 数据准备
10.4.2 案例：使用Gensim训练模型
10.4.3 案例：评估不同的模型
10.5 案例：可视化嵌入
10.5.1 案例：降维
10.5.2 案例：使用TensorFlow的嵌入投影
10.5.3 案例：构建相似树
10.6 小结
10.7 补充阅读
第11章文本数据的情感分析
11.1 本章内容概要
11.2 情感分析
11.3 亚马逊客户评论数据集
11.4 案例：基于词典的情感分析
11.4.1 Bing Liu lexicon
11.4.2 基于词典的方法的缺点
11.5 监督学习方法
11.6 案例：向量化文本数据并应用监督机器学习算法
11.6.1 第一步：数据准备
11.6.2 第二步：分割训练数据集与测试数据集
11.6.3 第三步：文本向量化
11.6.4 第四步：训练机器学习模型
11.7 深度学习的预训练语言模型
11.8 案例：迁移学习技术与预训练语言模型
11.8.1 第一步：加载模型与分词
11.8.2 第二步：训练模型
11.8.3 第三步：模型评估
11.9 小结
11.10 补充阅读
第12章知识图谱
12.1 本章内容概要
12.2 知识图谱
12.3 数据集简介
12.4 识别命名实体
12.4.1 案例：基于规则的命名实体识别
12.4.2 案例：规范化命名实体
12.4.3 合并实体词语
12.5 共指消解
12.5.1 案例：spaCy的词语扩展
12.5.2 案例：别名消解
12.5.3 案例：消解名称的多样性
12.5.4 案例：利用NeuralCoref执行回指消解
12.5.5 命名规范化
12.5.6 实体链接
12.6 案例：创建共现图
12.6.1 从文档中提取共现
12.6.2 使用Gephi可视化共现图
12.7 关系提取
12.7.1 案例：通过短语匹配提取关系
12.7.2 案例：使用依存树提取关系
12.8 创建知识图
12.9 小结
12.10 补充阅读
第13章文本分析的生产应用
13.1 本章内容概要
13.2 利用Conda创建可复制的Python环境
13.3 案例：通过容器创建可复制的环境 (1/2)
13.3 案例：通过容器创建可复制的环境 (2/2)
13.4 案例：创建文本分析模型的REST API (1/2)
13.4 案例：创建文本分析模型的REST API (2/2)
13.5 案例：通过云服务部署和扩展API
13.6 案例：版本自动升级与自动部署构建
13.7 小结
13.8 补充阅读
作者介绍
封面介绍

Content preview from Python文本分析

｜

第

章

很显然，去除语料库中最常见的单词之后，词云可以更好地表达

2015

年的主题，但

是我们仍然可以看到“

today

”和“

challenges

”之类频繁出现却没有太大意义的单词。

我们需要通过某种方法降低这些单词的权重，详情请参见下一节。

1.6.4

案例：

TF-IDF

排名

如图

1-5

所示，可视化最常见的单词通常并不会带给我们太多信息。即

使删除停用词，最常见的单词也常常是领域特定的单词，而且任何数据

子集（切片）中的情况都非常相似。但是，我们想更加突出某个数据切片中出现频

率超出“正常水平”的单词。这里说的切片可以是语料库的任何子集，比如某个发言、

某十年区间的发言或来自某个国家的发言。

我们希望突出显示某一个切片中实际的词频高于总体概率的单词。衡量单词“异常”

因素的算法有很多种。最简单且最佳的方法之一就是使用

TF-IDF

（

term frequency–

inverse document frequency

，即词频逆向文档频率）改善词频。

逆向文档频率

逆向文档频率（inverse document frequency，简称 IDF）是一个加权因子，用

于衡量语料库中词条的“异常”情况。一般，我们用 IDF 来降低普通词条对数

据分析或机器学习的影响。具体来说，首先我们定义词条

的文档频率。对于

一个给定的语料库（文档的集合）

，

的文档频率

df(t)

就是 C 中包含词条

的文档数量

。用数学公式表达就是：

6 For example, scikit-learn’s TfIdfVectorizer ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9787519864446

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

Python文本分析

by Jens Albrecht, Sidharth Ramachandran, Christian Winkler

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

More than 5,000 organizations count on O’Reilly

Julian F.

Addison B.

Amir M.

Mark W.

You might also like

精益AI

网络安全评估（第三版）

构建知识图谱

写给系统管理员的Python脚本编程指南

Publisher Resources