book

Python文本分析

Name: Python文本分析
ISBN: 9787519864446

by Jens Albrecht, Sidharth Ramachandran, Christian Winkler

August 2022

Intermediate to advanced

441 pages

11h 26m

Chinese

China Electric Power Press Ltd.

Read now

Unlock full access

前提知识
本书涉及的主要工具库
推荐书单
排版约定
使用代码示例
O’Reilly在线学习平台（O’Reilly Online Learning）
联系我们
致谢
第1章洞悉文本数据
1.1 本章内容概要
1.2 探索性数据分析
1.3 数据集简介
1.4 案例：使用Pandas获取数据概要
1.4.1 计算列的汇总统计结果
1.4.2 检查缺少的数据
1.4.3 绘制值的分布图
1.4.4 比较各个类别的分布
1.4.5 可视化一段时间内的变化
1.5 案例：构建简单的文本预处理流水线
1.5.1 使用正则表达式分词
1.5.2 删除停用词
1.5.3 通过一行代码处理流水线
1.6 词频分析案例
1.6.1 案例：使用Counter统计单词个数
1.6.2 案例：创建词频图
1.6.3 案例：创建词云
1.6.4 案例：TF-IDF排名
1.7 案例：查找上下文关键字
1.8 案例：n元语法分析
1.9 案例：比较不同时间段和类别的词频
1.9.1 创建词频时间表
1.9.2 创建词频热图
1.10 小结
第2章利用API提取文本
2.1 本章内容概要2.2 应用程序编程接口
2.3 案例：使用requests模块通过API提取数据
2.3.1 分页
2.3.2 速率限制
2.4 案例：使用Tweepy提取推特数据
2.4.1 获取凭证
2.4.2 安装与配置Tweepy
2.4.3 通过Search API提取数据
2.4.4 从用户的时间线中提取数据
2.4.5 通过流API提取数据
2.5 小结
第3章网页抓取与数据提取
3.1 本章内容概要
3.2 抓取网页与提取数据
3.3 路透社新闻存档简介
3.4 URL生成
3.5 案例：下载和解读robots.txt
3.6 案例：从sitemap.xml中寻找URL
3.7 案例：通过RSS查找URL
3.8 下载数据
3.9 案例：使用Python下载HTML页面
3.10 案例：利用wget下载HTML页面
3.11 提取半结构化数据
3.12 案例：通过正则表达式提取数据
3.13 案例：使用HTML解析器提取数据 (1/2)
3.13 案例：使用HTML解析器提取数据 (2/2)
3.14 案例：爬虫
3.14.1 案例介绍
3.14.2 错误处理与生产级质量的软件
3.15 基于密度的文本提取
3.15.1 利用Readability读取路透社的内容
3.15.2 总结基于密度的文本提取
3.16 一体化解决方案
3.17 案例：使用Scrapy抓取路透社的存档
3.18 爬虫面临的难题
3.19 总结和建议
第4章准备统计和机器学习的文本数据
4.1 本章内容概要
4.2 数据预处理流水线
4.3 数据集介绍：Reddit Self-Posts
4.3.1 将数据加载到Pandas4.3.2 案例：标准化属性名称
4.3.3 保存和加载数据框
4.4 清理文本数据
4.4.1 案例：使用正则表达式识别噪声
4.4.2 案例：使用正则表达式剔除噪声
4.4.3 案例：使用textacy规范化字符
4.4.4 案例：使用textacy根据模式遮挡数据
4.5 分词
4.5.1 案例：使用正则表达式分词
4.5.2 NLTK分词
4.5.3 分词建议
4.6 spaCy的语言处理
4.6.1 实例化流水线
4.6.2 处理文本
4.6.3 案例：自定义分词
4.6.4 案例：处理停用词
4.6.5 案例：根据词性提取词元
4.6.6 案例：提取名词短语
4.6.7 案例：提取命名实体
4.7 大型数据集的特征提取
4.7.1 案例：创建一个一体化函数
4.7.2 案例：使用spaCy处理大型数据集
4.7.3 持久地保存结果
4.7.4 有关执行时间的注意事项
4.8 补充说明
4.8.1 语言检测
4.8.2 拼写检查
4.8.3 分词规范化4.9 小结和建议
第5章特征工程与句法相似性
5.1 本章内容概要
5.2 实验数据集
5.3 案例：构建自己的向量化器
5.3.1 枚举词汇表
5.3.2 向量化文档
5.3.3 文档词条矩阵
5.3.4 相似性矩阵
5.4 词袋模型
5.4.1 案例：使用scikit-learn的CountVectorizer
5.4.2 案例：计算相似性
5.5 TF-IDF模型
5.5.1 利用TfidfTransformer优化文档向量
5.5.2 介绍ABC数据集
5.5.3 案例：降低特征维度
5.5.4 案例：通过具体化改进特征
5.5.5 案例：使用词元向量化文本
5.5.6 案例：限定单词类型
5.5.7 案例：删除最常见的单词
5.5.8 案例：通过n元语法添加上下文
5.6 ABC数据集的句法相似性
5.6.1 案例：查找与杜撰的标题最相似的标题
5.6.2 案例：查找大型语料库中最相似的两个文档
5.6.3 案例：查找相关词
5.6.4 有关语法相似性分析等运行时间较长的程序的提示
5.7 小结
第6章文本分类算法
6.1 本章内容概要
6.2 Java开发工具错误数据集介绍
6.3 案例：构建文本分类系统
6.3.1 第一步：准备数据
6.3.2 第二步：分割训练与测试数据集
6.3.3 第三步：训练机器学习模型
6.3.4 第四步：模型评估 (1/2)
6.3.4 第四步：模型评估 (2/2)
6.4 文本分类的最终解决方案
6.5 案例：利用交叉验证来评估实际的准确率
6.6 案例：通过网格搜索微调超参数
6.7 案例回顾与小结
6.8 小结
6.9 补充阅读
第7章解释文本分类器
7.1 本章内容概要
7.2 案例：使用预测概率确定分类置信度
7.3 案例：衡量预测模型中特征的重要性
7.4 案例：使用LIME解释分类结果 (1/2)
7.4 案例：使用LIME解释分类结果 (2/2)
7.5 案例：使用ELI5介绍分类结果
7.6 案例：使用Anchor解释分类结果
7.6.1 使用遮盖后的单词分布
7.6.2 使用实际的单词
7.7 小结
第8章非监督学习：主题建模与聚类
8.1 本章内容概要
8.2 数据集：联合国一般性辩论8.2.1 查看语料库的统计信息
8.2.2 准备工作
8.3 非负矩阵分解（NMF）
8.3.1 案例：使用NMF创建文档的主题模型
8.3.2 案例：使用NMF创建段落的主题模型
8.4 潜在语义分析/索引
8.5 隐含狄利克雷分布
8.5.1 案例：使用LDA生成段落的主题模型
8.5.2 案例：可视化LDA的结果
8.6 案例：使用词云来展示和比较主题模型
8.7 案例：计算文档的主题分布以及随时间的变化
8.8 Gensim主题建模
8.8.1 案例：Gensim的数据准备
8.8.2 案例：利用Gensim执行非负矩阵分解
8.8.3 案例：利用Gensim执行LDA
8.8.4 案例：计算连贯分数
8.8.5 案例：最佳主题数量
8.8.6 案例：使用Gensim创建层次狄利克雷过程
8.9 案例：使用聚集来挖掘文本数据的结构
8.10 进一步的想法
8.11 建议8.12 小结
第9章文本摘要
9.1 本章内容概要9.2 文本摘要
9.2.1 提取式摘要
9.2.2 数据的预处理
9.3 案例：通过主题表示提取文本的摘要
9.3.1 通过TF-IDF识别重要的单词
9.3.2 LSA算法
9.4 案例：通过指示表示总结文本
9.5 测量文本摘要方法的表现
9.6 案例：使用机器学习生成文本摘要
9.6.1 第一步：创建目标标签
9.6.2 第二步：添加特征来辅助模型预测
9.6.3 第三步：构建机器学习模型
9.7 小结
9.8 补充阅读
第10章通过单词嵌入探索语义关系
10.1 本章内容概要
10.2 语义嵌入
10.2.1 单词嵌入
10.2.2 单词嵌入的类比推理
10.2.3 嵌入的类型
10.3 案例：预训练模型的相似性查询
10.3.1 加载预训练模型
10.3.2 相似性查询
10.4 案例：训练与评估自己的嵌入
10.4.1 数据准备
10.4.2 案例：使用Gensim训练模型
10.4.3 案例：评估不同的模型
10.5 案例：可视化嵌入
10.5.1 案例：降维
10.5.2 案例：使用TensorFlow的嵌入投影
10.5.3 案例：构建相似树
10.6 小结
10.7 补充阅读
第11章文本数据的情感分析
11.1 本章内容概要
11.2 情感分析
11.3 亚马逊客户评论数据集
11.4 案例：基于词典的情感分析
11.4.1 Bing Liu lexicon
11.4.2 基于词典的方法的缺点
11.5 监督学习方法
11.6 案例：向量化文本数据并应用监督机器学习算法
11.6.1 第一步：数据准备
11.6.2 第二步：分割训练数据集与测试数据集
11.6.3 第三步：文本向量化
11.6.4 第四步：训练机器学习模型
11.7 深度学习的预训练语言模型
11.8 案例：迁移学习技术与预训练语言模型
11.8.1 第一步：加载模型与分词
11.8.2 第二步：训练模型
11.8.3 第三步：模型评估
11.9 小结
11.10 补充阅读
第12章知识图谱
12.1 本章内容概要
12.2 知识图谱
12.3 数据集简介
12.4 识别命名实体
12.4.1 案例：基于规则的命名实体识别
12.4.2 案例：规范化命名实体
12.4.3 合并实体词语
12.5 共指消解
12.5.1 案例：spaCy的词语扩展
12.5.2 案例：别名消解
12.5.3 案例：消解名称的多样性
12.5.4 案例：利用NeuralCoref执行回指消解
12.5.5 命名规范化
12.5.6 实体链接
12.6 案例：创建共现图
12.6.1 从文档中提取共现
12.6.2 使用Gephi可视化共现图
12.7 关系提取
12.7.1 案例：通过短语匹配提取关系
12.7.2 案例：使用依存树提取关系
12.8 创建知识图
12.9 小结
12.10 补充阅读
第13章文本分析的生产应用
13.1 本章内容概要
13.2 利用Conda创建可复制的Python环境
13.3 案例：通过容器创建可复制的环境 (1/2)
13.3 案例：通过容器创建可复制的环境 (2/2)
13.4 案例：创建文本分析模型的REST API (1/2)
13.4 案例：创建文本分析模型的REST API (2/2)
13.5 案例：通过云服务部署和扩展API
13.6 案例：版本自动升级与自动部署构建
13.7 小结
13.8 补充阅读
作者介绍
封面介绍

Content preview from Python文本分析

105

第 4 章

准备统计和机器学习的

文本数据

从技术的角度来说，任何文本文档都只不过是字符序列。为了针对内容建立模型，

我们需要将文本转换为一系列单词。更通俗地说，这里的“单词”指的是有意义的

字符序列，即词语。但是，仅有词语还不够。想一想单词序列“

New York

”，我们

应该将其视为一个命名实体。正确地识别这些单词序列，看出它们是复合结构，则

需要复杂的语言处理。

通常，数据准备（或称数据预处理）的工作不仅需要将数据转换为适合分析的基础

形式，而且还需要消除干扰噪声。什么是噪声、什么不是噪声，取决于执行何种分析。

在处理文本时，噪声会以各种不同的方式出现。原始的数据可能包含

HTML

标签或

特殊的字符，大多数情况下，我们都应该将其删除。但是出现频率过高的单词往往

不会包含太多含义，也就是我们所说的停用词，它们的存在会在机器学习和数据分

析中引入噪声，因为它们会增加检测模式的难度。

4.1

本章内容概要

在本章中，我们来介绍几个文本预处理流水线的解决方案。这类流水线的输入为原

始文本，它会清理文本，转换并提取文本内容的基本特征。首先，我们介绍使用正

则表达式清理数据和分词，然后再重点介绍如何使用

spaCy

进行语言处理。

spaCy

是一个强大的

NLP

库，拥有现代

API

以及最新的模型。在有些操作中，我们还将使

用

textacy

，这个库提供了一些非常实用的附加功能，特别是在数据预处理方面。此外，

我们还会在必要的时候介绍

NLTK

以及其他库。

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9787519864446

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

Python文本分析

by Jens Albrecht, Sidharth Ramachandran, Christian Winkler

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

More than 5,000 organizations count on O’Reilly

Julian F.

Addison B.

Amir M.

Mark W.

You might also like

精益AI

网络安全评估（第三版）

构建知识图谱

写给系统管理员的Python脚本编程指南

Publisher Resources