book

《高性能 Python》第二版

Name: 《高性能 Python》第二版
ISBN: 9798341657946

by Micha Gorelick, Ian Ozsvald

May 2025

Intermediate to advanced

468 pages

6h 20m

Chinese

O'Reilly Media, Inc.

Read now

Unlock full access

前言
序言
本书适合人群本书不适合人群您将了解到Python 3与 Python 2.7 相比的变化许可证如何进行归因勘误和反馈本书使用的约定使用代码示例O'Reilly 在线学习如何联系我们致谢
1.了解 Performant Python
基本计算机系统计算单位记忆单元通信层整合基本要素理想化计算与 Python 虚拟机的比较那么，为什么要使用 Python？如何成为高效程序员良好的工作实践关于做好笔记本的几点思考让工作重新充满乐趣
2.剖析查找瓶颈
高效剖析介绍朱莉娅集合计算朱莉娅全集定时打印和装饰的简单方法使用 Unix time 命令进行简单计时使用 cProfile 模块用 SnakeViz 可视化 cProfile 输出使用 line_profiler 进行逐行测量使用 memory_profiler 诊断内存使用情况用 PySpy 自省现有进程字节码引擎盖下使用 dis 模块检查 CPython 字节码不同的方法，不同的复杂性在优化过程中进行单元测试以保持正确性无操作 @ 配置文件装饰器成功配置代码的策略总结
3.列表和元组
更高效的搜索列表与元组列表作为动态数组作为静态数组的元组总结
4.字典和集合
词典和词典集如何工作？插入和检索删除调整大小哈希函数和熵字典和命名空间总结
5.迭代器和生成器
无穷级数的迭代器懒惰发生器评估总结
6.矩阵和矢量计算
问题介绍Python 列表还不够好吗？分配过多的问题内存碎片了解性能利用 perf 的输出做出决策输入 numpy将 numpy 应用于扩散问题内存分配和就地操作选择性优化：找到需要修复的问题numexpr：让就地操作更快更简单一个警世故事：验证 "优化"（scipy）矩阵优化的经验教训大熊猫熊猫内部模型对多行数据应用函数从部分结果而非并集建立数据框和序列完成一项工作的方法不止一种（可能还有更快的方法有效开发熊猫的建议总结
7.编译成 C 语言
可以提高哪些速度？JIT 与 AOT 编译器为什么类型信息能帮助代码更快运行？使用 C 语言编译器回顾朱莉娅集合示例Cython使用 Cython 编译纯 Python 版本pyximport分析代码块的 Cython 注释添加一些类型注解Cython 和 numpy在一台机器上使用 OpenMP 并行化解决方案NumbaNumba 为 Pandas 编译 NumPyPyPy垃圾回收的差异运行 PyPy 和安装模块速度改进概要何时使用每种技术其他即将开展的项目图形处理器（GPU）动态图表PyTorchGPU 基本剖析GPU 性能考虑因素何时使用图形处理器外来函数接口类型cffif2pyCPython 模块总结
8.异步输入/输出
异步编程入门async/await 如何工作？串行爬行器Gevent龙卷aiohttp共享 CPU-I/O 工作负载串行分批结果完全异步总结

9.多处理模块
多处理模块概述使用蒙特卡罗方法估计圆周率使用进程和线程估算 Pi使用 Python 对象用 Joblib 代替多进程处理并行系统中的随机数使用 numpy查找质数工作队列利用进程间通信验证原语串行解决方案简单泳池解决方案不那么天真的泳池解决方案使用 Manager.Value 作为标记使用 Redis 作为标记使用 RawValue 作为标记使用 mmap 作为标记使用 mmap 作为标记使用多进程共享 numpy 数据同步文件和变量访问文件锁定锁定数值总结
10.集群和作业队列
集群的好处聚类的缺点集群升级策略不当，华尔街损失 4.62 亿美元Skype 24 小时全球停机常见的集群设计如何启动集群解决方案使用集群时避免疼痛的方法两种集群解决方案使用 IPython Parallel 支持研究使用 Dask 并行 Pandas用于稳健生产集群的 NSQ队列出版社/分社分布式质点计算其他值得关注的聚类工具DockerDocker 的性能Docker 的优势总结
11.使用更少的内存
原型对象价格昂贵数组模块可廉价存储许多原始对象利用 NumExpr 在 NumPy 中减少内存使用量了解集合中使用的 RAM字节与统一码在 RAM 中高效存储大量文本在 1100 万个代币上尝试这些方法使用 Scikit-Learn 的 FeatureHasher 对更多文本进行建模DictVectorizer 和 FeatureHasher 介绍在实际问题中比较 DictVectorizer 和 FeatureHasherSciPy 的稀疏矩阵减少内存使用量的技巧概率数据结构使用 1 字节莫里斯计数器进行近似计数K 最小值Bloom 过滤器日志记录计数器真实案例
12.实地经验教训
使用 Feature-engine 简化特征工程管道机器学习的特征工程部署功能工程管道的艰巨任务利用开源 Python 库的力量特征引擎使特征工程管道的构建和部署更加顺畅帮助采用新的开源软件包开发、维护和鼓励为开源图书馆做出贡献高效数据科学团队需要多长时间？发现与规划管理预期和交付Numba一个简单的例子最佳做法和建议获取帮助优化与思考Adaptive Lab的社交媒体分析（2014年）自适应实验室的 PythonSoMA 的设计我们的开发方法维护 SoMA给工程师同行的建议让 Deep Learning 与 RadimRehurek.com 一起飞（2014 年）甜点优化课程结论Lyst.com 的大规模生产型机器学习（2014 年集群设计快速发展的初创企业中的代码演进建立推荐引擎报告和监测一些建议Smesh 的大规模社交媒体分析（2014 年）Python 在 Smesh 的作用平台高性能实时字符串匹配报告、监控、调试和部署成功的网络和数据处理系统 PyPy》（2014 年）先决条件数据库网络应用OCR 和翻译任务分配和工人结论Lanyrd.com 的任务队列（2014 年）Python 在 Lanyrd 的作用提高任务队列的性能报告、监控、调试和部署给开发人员同行的建议
索引
关于作者

Content preview from 《高性能 Python》第二版

第 12 章实地经验教训实地经验教训

本作品已使用人工智能进行翻译。欢迎您提供反馈和意见：translation-feedback@oreilly.com

在本章中，我们收集了在大数据量和速度关键型情况下使用 Python 的成功公司的故事。这些故事由每个组织中拥有多年经验的关键人物撰写；他们不仅分享了自己的技术选择，还分享了一些来之不易的智慧。我们为您准备了四个来自本领域其他专家的精彩新故事。我们还保留了本书第一版中的 "现场经验"，标题标有"（2014）"。

使用Feature-engine简化特征工程管道

索莱达-加利（trainindata.com）

Train in Data 是一个由经验丰富的数据科学家和人工智能软件工程师领导的教育项目。我们帮助专业人士提高编码和数据科学技能，并采用机器学习最佳实践。我们创建了关于机器学习和人工智能软件工程的高级在线课程，并创建了像Feature-engine 这样的开源库，以顺利交付机器学习解决方案。

机器学习的特征工程

机器学习模型接收大量输入变量，然后输出预测结果。例如，在金融和保险领域，我们建立模型来预测贷款偿还的可能性、申请被欺诈的可能性以及事故发生后汽车应该修理还是更换。我们收集和存储的数据或从第三方应用程序接口调用的数据几乎从不适合用于训练机器学习模型或返回预测结果。相反，我们在将变量输入机器学习算法之前会对其进行大量转换。我们将变量转换集合称为特征工程。

特征工程包括对缺失数据进行估算、对分类变量进行编码、对数字变量进行转换或离散化、将特征置于同一尺度内、将特征组合成新变量、从日期中提取信息、汇总事务数据，以及从时间序列、文本甚至图像中提取特征。每个特征工程步骤都有许多技术，您的选择取决于变量的特征和您打算使用的算法。因此，当特征工程师在企业中构建和使用机器学习时，我们所说的不是机器学习模型，而是机器学习管道，其中很大一部分管道都用于特征工程和数据转换。

部署功能工程管道的艰巨任务

许多特征工程转换都是从数据中学习参数。我见过一些组织使用带有硬编码参数的配置文件。这些文件限制了通用性，而且难以维护（每次重新训练模型时，都需要用新参数重写配置文件）。要创建高性能的特征工程管道，最好是开发能够自动学习和存储这些参数的算法，而且还可以保存和加载，最好是作为一个对象。

在 Train in Data，我们在研究环境中开发机器学习管道，并将其部署到生产环境中。这些管道应具有可重复性。可重复性是指完全复制机器学习模型的能力，即在输入相同数据的情况下，两个模型返回相同的输出结果。在研究和生产环境中使用相同的代码，可以最大限度地减少需要重写的代码量，从而最大限度地提高可重复性，从而顺利部署机器学习管道。

需要对特征工程转换进行测试。对每个功能工程程序进行单元测试，可确保算法返回所需的结果。为增加单元测试和集成测试而在生产过程中进行大量代码重构极其耗时，而且会带来新的机会来引入错误，或发现由于缺乏测试而在研究阶段引入的错误。为了尽量减少生产中的代码重构，我们最好在研究阶段开发工程算法时引入单元测试。 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9798341657946

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business