book

使用 Python 进行应用文本分析

Name: 使用 Python 进行应用文本分析
ISBN: 9798341663008

by Benjamin Bengfort, Rebecca Bilbro, Tony Ojeda

July 2025

Intermediate to advanced

332 pages

4h 34m

Chinese

O'Reilly Media, Inc.

Read now

Unlock full access

前言
自然语言的计算挑战语言数据：标记和单词进入机器学习文本分析工具对本书的期待本书的读者对象代码示例和 GitHub 仓库本书使用的约定使用代码示例O'Reilly Safari如何联系我们致谢
1.语言与计算
数据科学范式语言感知数据产品数据产品管道作为数据的语言语言计算模型语言特征语境特征结构特征结论
2.建立自定义语料库
什么是语料库？特定领域的语料库鲸鱼摄取引擎语料库数据管理语料库磁盘结构语料库阅读器使用NLTK进行流式数据访问读取HTML语料库从数据库读取语料库结论
3.语料库预处理和整理
分解文档识别和提取核心内容将文档解构为段落分段：拆分句子标记化：识别单个标记语音部分标记中级语料库分析语料库转换中间预处理和存储读取处理过的语料库结论
4.文本向量化和转换管道 5.
空间中的词语频率向量单热编码词频-反向文档频率分布式表示Scikit-Learn APIBaseEstimator 接口扩展 TransformerMixin管道管道基础超参数优化的网格搜索用特征联盟丰富特征提取结论
5.文本分析分类
文本分类识别分类问题分类器模型构建文本分类应用程序交叉验证模型构建模型评估模型操作化结论
6.文本相似性聚类
文本无监督学习通过文档相似性进行聚类距离度量部分聚类分层聚类文档主题建模潜在德里希勒分配潜语义分析非负矩阵因式分解结论
7.语境感知文本分析
基于语法的特征提取无上下文语法句法分析器提取关键词提取实体语法特征提取具有n-语法意识的语料库阅读器选择合适的 n-语法窗口重要搭配n-语法语言模型频率和条件频率最大似然估计未知词：后退和平滑语言生成结论
8.文本可视化
可视化特征空间视觉特征分析引导特征工程模型诊断集群可视化类的可视化诊断分类错误可视化引导剪影评分和肘部曲线结论
9.文本图表分析
图形计算和分析创建基于图表的词库分析图表结构图表的可视化分析从文本中提取图表创建社交图谱从社交图谱中获得启示实体解析图表中的实体解析用结构阻断模糊图块结论

10.聊天机器人
会话基础对话：简短交流保持对话礼貌会话规则问候语和敬语处理误解娱乐性问题依赖关系解析选区解析问题检测从汤匙到克学会帮助睦邻友好提供建议结论
11.利用多处理和 Spark 扩展文本分析
Python 多处理并行运行任务进程池和队列并行语料库预处理使用 Spark 进行集群计算Spark 作业剖析分发语料库RDD 操作使用 Spark 的 NLP结论
12.深度学习及其他
应用神经网络神经语言模型人工神经网络深度学习架构情感分析深度结构分析未来（几乎）就在眼前
术语表
索引

Content preview from 使用 Python 进行应用文本分析

术语表

聚合: 聚合聚类是分层聚类的一种类型，它从单个实例开始产生聚类，通过相似性迭代聚合，直到所有实例都属于一个组。
应用编程接口 (API): 应用编程接口正式定义了软件组件的通信方式。数据 API 可以为用户提供从互联网上读取或获取信息的系统方法。Scikit-Learn API 提供了通过类继承实现的机器学习算法的通用访问。
词袋（BOW）/连续词袋（CBOW）: 词袋是一种对文本进行编码的方法，它将语料库中的每一份文档都转换成一个向量，该向量的长度等于语料库的词汇量。词袋表示法的主要观点是，意义和相似性是由词汇编码的。
包络: Baleen 是一种开源的博客自动摄取服务，用于构建自然语言处理研究的语料库。
介度中心性: 给定图G 中的节点N ，其间度中心性表示G 与N 的连接程度。间度中心性的计算方法是G 中包含N 的最短路径与G 中最短路径总数之比。
偏差: 偏差是监督学习问题中的两个误差来源之一，计算方法是估计值与真实值之间的差值。偏差大表明估计值与正确答案的偏差很大。
典型化: 典型化是实体解析的三大主要任务之一，它需要将具有多种可能表示形式的数据转换为标准形式。
中心性: 在网络图中，中心性是衡量节点相对重要性的指标。重要节点直接或间接连接到最多的节点，因此中心度较高。
聊天机器人: 聊天机器人是一种参与轮流对话的程序，其目的是解释输入的文本或语音，并输出适当、有用的回复。
分类: 分类是一种有监督的机器学习，它试图学习由独立变量组成的实例之间的模式及其与给定分类目标变量之间的关系。可以对分类器进行训练，以尽量减少训练数据中预测类别与实际类别之间的误差，一旦适合，就可以根据训练过程中检测到的模式为新实例分配分类标签。
分类报告/分类热图: 分类报告显示了每个类别的主要分类指标（精确度、召回率和 F1 分数）。
接近度中心性: 接近中心度计算的是从图G 中的节点N 到所有其他节点的平均路径距离，按图的大小归一化。接近中心度描述了源自N 的信息在整个G 传播的速度。
聚类: 无监督学习或聚类是发现无标签数据中隐藏结构的一种方法。聚类算法旨在发现无标签数据中的潜在模式，利用特征将实例组织成有意义的不同组别。
混淆矩阵: 混淆矩阵是评估分类器准确性的一种方法。在对分类器进行拟合后，混淆矩阵就是一份报告，说明每个预测类别的单个测试值与其实际类别的比较情况。
联结语言模型: 语言的连接主义模型认为，语言单位之间以有意义的方式相互作用，这些方式不一定由顺序上下文编码，但可以通过神经网络方法学习。
语料库: 语料库是包含自然语言的相关文档或语句的集合。
语料库阅读器: 语料库阅读器是一个程序界面，用于读取、搜索、流式处理和过滤文档，并为需要访问语料库内数据的代码提供编码和预处理等数据处理技术。
交叉验证/k 折交叉验证: 交叉验证（或k 倍交叉验证）是在数据集的k 个片段（训练和测试片段）上独立拟合监督学习模型的过程，它允许我们比较模型，并预先估计哪个模型在处理未见数据时性能最佳。交叉验证有助于平衡偏差/方差之间的权衡。
数据产品: 数据产品是指从数据中获得价值并反过来生成新数据的软件应用程序。
重复数据删除: 重复数据删除是实体解析所涉及的三项主要任务之一，需要消除重复数据的重复（精确或虚拟）副本。
Deep Learning: Deep Learning 广义上描述了包含多个交互式隐藏层的神经网络架构大家族。
度: 图G 中节点N 的度是G 中接触N 的边的数量。
度中心性: 度中心性衡量的是图 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9798341663008

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

使用 Python 进行应用文本分析

by Benjamin Bengfort, Rebecca Bilbro, Tony Ojeda

术语表

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.