book

《Python 概论》，第 4 版

Name: 《Python 概论》，第 4 版
ISBN: 9798341656840

by Alex Martelli, Anna Martelli Ravenscroft, Steve Holden, Paul McGuire

May 2025

Intermediate to advanced

738 pages

9h 28m

Chinese

O'Reilly Media, Inc.

Read now

Unlock full access

序言
如何使用本书第一部分，Python 入门第二部分，Python 核心语言和内置程序第三部分，Python 库和扩展模块第四部分，网络和网络编程第 V 部分，扩展、分发以及版本升级和迁移本书使用的约定参考约定版本约定排版约定使用代码示例O'Reilly 在线学习如何联系我们致谢
1.Python 简介
Python 语言Python 标准库和扩展模块Python 实现CPythonPyPy在 CPython、PyPy 和其他实现之间做出选择其他发展、实施和分配情况许可证和价格问题Python 开发和版本Python 资源文件社区安装从二进制文件安装 Python从源代码安装 PythonMicrosoft Windows类 Unix 平台
2.Python 解释器
Python 程序环境变量命令行语法和选项Windows py 启动器PyPy 解释器互动环节Python 开发环境空闲其他 Python IDE支持 Python 的免费文本编辑器检查 Python 程序的工具运行 Python 程序在浏览器中运行 PythonPyScriptJupyter
3.Python 语言
词汇结构线条和缩进字符集代币发言数据类型数字序列设置字典无省略号 (...)可收回款项布尔值变量和其他参考资料变量作业陈述del 报表表达式和运算符比较链短路操作器作业表达式数字运算数字转换算术运算整数的位操作序列操作一般序列弦乐元组列表设置操作设置成员资格设置方法词典操作词典会员为词典编制索引词典方法控制流语句if 语句比赛声明while 语句声明中断声明继续声明循环语句的 else 子句通行证声明尝试和提出声明声明功能定义函数def 语句参数功能对象的属性函数注释返回声明调用函数命名空间Lambda 表达式发电机递归
4.面向对象的 Python
类和实例Python 类班级声明班级机构描述符实例属性参考基础知识约束和非约束方法继承内置对象类型班级方法属性__插槽____get属性__每个实例方法从内置类型继承特殊方法通用特殊方法集装箱的特殊方法抽象基类数值对象的特殊方法装饰元玻璃替代自定义元类的简单类定制方法Python 如何确定类的元类元类如何创建类数据类别枚举类型（枚举）
5.类型注释
历史类型检查实用程序mypy其他类型检查器类型注释语法打字模块类型类型表达式参数抽象基类协议公用设施和装饰定义自定义类型在运行时使用类型注解如何在代码中添加类型注解为新代码添加类型注解为现有代码添加类型注解（渐进式类型化）使用 .pyi 存根文件摘要
6.例外情况
尝试声明try/except最后try/except/finally加薪声明与声明和背景管理人员生成器和异常异常传播异常对象标准例外的层次结构标准异常类自定义异常类自定义异常和多重继承标准库中使用的其他异常ExceptionGroup 和 except*错误检查策略LBYL 与 EAFP 的比较处理大型程序中的错误记录错误主张声明
7.模块和软件包
模块对象进口声明声明模块加载内置模块在文件系统中搜索模块主要计划重装模块循环进口定制进口商套餐软件包对象的特殊属性绝对进口与相对进口发行版实用程序 (distutils) 和 setuptoolsPython 环境进入虚拟环境什么是虚拟环境？创建和删除虚拟环境使用虚拟环境管理依赖性要求其他环境管理解决方案使用 Virtualenvs 的最佳实践
8.核心内置模块和标准库模块
内置类型内置功能系统模块复制模块收藏模块链图计数器有序字典默认值力矩functools 模块heapq 模块装饰-排序-不装饰成语argparse 模块itertools 模块
9.弦与物
字符串对象的方法字符串模块字符串格式化格式化字符串字面量（F-字符串）使用格式调用设置格式价值转换数值格式化：格式指定器嵌套格式规范用户编码类的格式使用 % 进行传统字符串格式化格式指定语法文字包装和填充打印模块reprlib 模块统一码编解码器模块unicodedata 模块

10.正则表达式
正则表达式和 re 模块RE 和字节与字符串模式字符串语法常见正则表达式成语字符集替代品组别可选标志匹配与搜索在字符串起始和结尾处锚定正则表达式对象匹配对象再模块的功能RE 和 := 运算符第三方 regex 模块
11.文件和文本操作
io 模块用 open 创建文件对象文件对象的属性和方法文件对象迭代类文件对象和多态性tempfile 模块文件输入/输出辅助模块文件输入模块结构模块内存文件：io.StringIO 和 io.BytesIO存档和压缩文件tarfile 模块zip 文件模块操作系统模块文件系统操作os.path 模块OSError 异常errno 模块pathlib 模块统计模块filecmp 模块fnmatch 模块球状模块shutil 模块文本输入和输出标准输出和标准误差打印功能标准输入getpass 模块更丰富的文本输入/输出读线模块控制台输入/输出国际化本地模块gettext 模块更多国际化资源
12.持久性和数据库
序列化csv 模块json 模块泡菜模块货架模块DBM 模块dbm 软件包类似于 DBM 的文件使用示例Python 数据库 API (DBAPI)异常类螺纹安全参数样式工厂功能类型描述属性连接功能连接对象光标对象符合 DBAPI 标准的模块SQLite
13.时间操作
时间模块日期模块日期班级时间班日期时间类timedelta 类tzinfo 抽象类时区类zoneinfo 模块dateutil 模块调度模块日历模块
14.自定义执行
按站点定制终止功能动态执行和执行避免执行表达编译和编码对象绝不执行或评估不受信任的代码内部类型类型对象代码对象类型框架类型垃圾收集gc 模块弱化模块
15.并发：线程和进程
Python 中的线程穿线模块主题对象线程同步对象螺纹本地存储队列模块多处理模块多处理与线程的区别共享状态类值、数组和管理器进程池并发期货模块线程程序架构工艺环境运行其他程序使用子进程模块使用 os 模块运行其他程序mmap 模块mmap 对象的方法使用 mmap 对象进行 IPC
16.数字处理
浮点数值数学和 cmath 模块统计模块操作员模块随机数和伪随机数随机模块加密质量随机数：秘密模块分数模块十进制模块阵列处理阵列模块数值阵列计算扩展
17.测试、调试和优化
测试单元测试和系统测试doctest 模块unittest 模块使用 nose2 进行测试使用 pytest 进行测试调试调试之前检查模块回溯模块pdb 模块其他调试模块警告模块班级对象过滤器功能优化开发足够快的 Python 应用程序基准大规模优化剖析小规模优化
18.Network+ 基础知识
伯克利套接字接口套接字地址客户机/服务器计算插座模块套接字对象无连接套接字客户端无连接套接字服务器面向连接的套接字客户端面向连接的套接字服务器传输层安全SSLContext
19.客户端网络协议模块
电子邮件协议poplib 模块smtplib 模块HTTP 和 URL 客户端URL 访问urllib 软件包第三方请求包其他网络协议
20.提供 HTTP 服务
http.serverWSGIWSGI 服务器ASGIPython 网络框架"全栈 "与 "轻量级 "框架几个流行的全栈框架使用轻量级框架时的注意事项几个流行的轻量级框架
21.电子邮件、MIME 和其他网络编码
MIME 和电子邮件格式处理电子邮件软件包中的功能电子邮件信息模块电子邮件生成器模块创建信息电子邮件编码器模块电子邮件实用工具模块电子邮件软件包使用示例将二进制数据编码为 ASCII 文本base64 模块quopri 模块uu 模块
22.结构化文本：HTML
HTML 实体模块BeautifulSoup 第三方套餐美丽汤班bs4的可导航等级bs4 查找...方法（又称搜索方法）bs4 CSS 选择器使用 BeautifulSoup 的 HTML 解析示例生成 HTML使用 bs4 编辑和创建 HTML用 bs4 创建 HTML模板忍者2软件包
23.结构化文本XML
元素树元素类元素树类元素树模块中的函数使用 ElementTree.parse 解析 XML从元素树中选择元素编辑元素树从零开始构建元素树迭代解析 XML
24.包装计划和扩展
本章未涉及的内容Python 打包简史在线材料
25.扩展和嵌入经典 Python
在线材料
26. v3.7 向 v3.n 迁移
Python 3.11 的重大变化规划 Python 版本升级选择目标版本确定工作范围应用代码变更使用 pyupgrade 实现自动化升级多版本测试使用受控部署流程应该多久升级一次？摘要
附录。Python 3.7 至 3.11 中的新功能和更改
Python 3.7Python 3.8Python 3.9Python 3.10Python 3.11
索引
关于作者

Content preview from 《Python 概论》，第 4 版

第 22 章结构化文本结构化文本：HTML

本作品已使用人工智能进行翻译。欢迎您提供反馈和意见：translation-feedback@oreilly.com

网络上的大多数文档都使用 HTML（超文本标记语言）。标记是指在文本文档中插入特殊标记（称为标记），使文本结构化。从理论上讲，HTML 是 SGML（标准通用标记语言）这一大型通用标准的应用。实际上，网络上的许多文档都以粗略或不正确的方式使用 HTML。

HTML 是为在浏览器中显示文档而设计的。随着网络内容的发展，用户意识到它缺乏 语义标记的能力，在这种情况下，标记表示的是划定文本的含义，而不仅仅是其外观。完全、精确地提取 HTML 文档中的信息往往被证明是不可行的。一种名为 XHTML 的更严格标准试图弥补这些缺陷。XHTML 类似于传统的 HTML，但它是用 XML（可扩展标记语言）定义的，比 HTML 更精确。你可以使用第 23 章中介绍的工具来处理格式良好的 XHTML。不过，截至目前，XHTML 并未取得压倒性的成功，反而被更实用的 HTML5 所取代。

尽管困难重重，但从 HTML 文档中提取至少一些有用的信息（这项任务被称为 web scraping、spidering 或scraping）还是很有可能的。Python 的标准库试图提供帮助，它提供了html包，用于解析 HTML 文档，无论是为了展示文档，还是更常见的，作为试图从文档中提取信息的一部分。然而，当你处理的是有些破损的网页时（几乎总是这种情况！），第三方模块BeautifulSoup通常会给你带来最后、最好的希望。在本书中，出于实用的原因，我们主要介绍BeautifulSoup，而忽略了与之竞争的标准库模块。读者在寻找替代品时，还应该研究一下日益流行的scrapy软件包。

生成 HTML 和在 HTML 中嵌入 Python 也是相当频繁的任务。标准 Python 库不支持 HTML 生成或嵌入，但您可以使用 Python 字符串格式化，第三方模块也可以提供帮助。BeautifulSoup可以让您改变 HTML 树（因此，您可以通过编程，甚至 "从头开始"，建立一个 HTML 树）；另一种更可取的方法是模板化，例如，第三方模块jinja2 支持模板化，我们将在"The jinja2 Package "中介绍其基本要素。

HTML 实体模块

Python 标准库中的 html.entities模块提供了一些属性，它们都是映射（见表 22-1）。无论您使用哪种通用方法来解析、编辑或生成 HTML，它们都能派上用场，包括下一节介绍的BeautifulSoup包。

表 22-1. HTML.entities的属性
代码点2名称	从 Unicode 代码点到 HTML 实体名称的映射。例如，entities.codepoint2name[228]为 "auml"，因为 Unicode 字符 228，ä，"带重读的小写 a"，在 HTML 中编码为"ä"。
实体定义	从 HTML 实体名称到等效 Unicode 单字符串的映射。例如，entities. entitydefs ['auml']为'ä'，entities.entitydefs['sigma']为'σ'。
html5	HTML5 命名字符引用到等效单字符串的映射。例如，entities.html5['gt;']就是'>'。关键字中的尾部分号确实很重要--少数（但远非全部）HTML5 命名的字符引用可以选择拼写时不带尾部分号，在这种情况下，entities ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

机器学习实战：基于Scikit-Learn、Keras 和TensorFlow （原书第2 版）

Publisher Resources

ISBN: 9798341656840

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

《Python 概论》，第 4 版

by Alex Martelli, Anna Martelli Ravenscroft, Steve Holden, Paul McGuire

第 22 章结构化文本结构化文本：HTML

HTML 实体模块

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.