book

混沌工程

by Casey Rosenthal, Nora Jones

July 2025

Intermediate to advanced

308 pages

3h 7m

Chinese

O'Reilly Media, Inc.

Book available

Read now

Unlock full access

本书使用的约定O'Reilly 在线学习如何联系我们致谢
作为代码的管理原则混沌猴诞生Go Big学科正规化社区诞生快速发展
思考复杂性遭遇复杂性示例 1：业务逻辑与应用逻辑不匹配示例 2：客户引发的重试风暴示例 3：假日代码冻结面对复杂性意外复杂性基本复杂性拥抱复杂性
动态安全模型经济性工作量安全复杂性的经济支柱状态关系环境可逆性应用于软件的复杂性经济支柱系统视角
什么是混沌工程实验与测试验证与确认混沌工程不是什么破坏性反脆弱性高级原理围绕稳态行为建立假设改变真实世界的事件在生产中运行实验自动化实验以持续运行最小化爆炸半径原则 "的未来
混沌改造旧系统中常见的设计模式较新系统中常见的设计模式实现基本容错灾难作品剧场目标反目标过程准备工作演练汇报过程如何演变获得管理层的支持结果避免缓存不一致尝试，再尝试（为了安全）不可能的结果总结
DiRT 测试的生命交战规则测试什么如何测试收集结果谷歌的测试范围总结
为什么一切都如此复杂？意外复杂情况举例简单系统只是冰山一角实验结果分类已知事件/意外后果未知事件/意外后果故障优先级探索依赖关系差异程度故障变化将变化和优先级相结合将变异扩展到依赖关系大规模部署试验结论

从灾难中学习细化实验目标安全地进行大规模实验在实践中LinkedOut故障模式使用 LiX 确定实验目标用于快速实验的浏览器扩展自动化实验结论
Capital One案例研究盲目弹性测试向混沌工程过渡CI/CD 中的混沌实验设计实验时应注意的事项工具团队结构宣传结论
混沌工程与复原力混沌工程周期的步骤设计实验混沌实验设计的工具支持有效的内部合作了解操作程序讨论范围假设结论
系统中的人类在社会技术系统中加入 "社会 "元素组织是一个系统的系统工程适应能力发现薄弱信号失败与成功，一枚硬币的两面将原则付诸实践建立假设改变真实世界的事件最小化爆炸半径案例研究 1：游戏日通信：任何组织的网络延迟案例研究 2：连接点领导力是系统的新兴属性案例研究 3：改变基本假设安全地组织混乱你需要的只是高度和方向闭环如果你没有失败，你就没有在学习
实验的原因、方法和时间为什么如何何时功能分配，或 "人定胜天"/"机定胜天替代神话结论
选择实验随机搜索专家时代可观察性：机会直觉工程的可观察性结论
减少事故的短暂性柯克帕特里克模型第一层：反应第二级：学习第 3 层次：转移第四层：结果替代投资回报率示例附带投资回报率结论
合作心态开放科学；开放源代码开放式混沌实验实验结果、可共享结果总结
采用谁参与了混沌工程有多少组织参与了混沌工程先决条件采用的障碍复杂性将所有内容整合在一起
简历的来源履历系统的类型野生 CV：ChAPChAP：选择实验ChAP：运行实验ChAP 中的高级原理作为持续验证的 ChAPCV 即将进入您身边的系统性能测试数据工件正确性
网络物理系统的兴起功能安全与混沌工程FMEA 和混沌工程网络物理系统中的软件超越 FMEA 的混沌工程探针效应解决探针效应结论
什么是人与组织绩效 (HOP)？HOP 的关键原则原则 1：错误是正常的原则 2：指责不能解决问题原则 3：环境影响行为原则 4：学习和改进至关重要原则 5：有意回应很重要HOP 与混沌工程混沌工程与 HOP 的实践结论
我们为什么需要混沌工程？鲁棒性和稳定性真实世界的例子应用混沌工程我们拥抱混沌的方式故障注入应用程序中的故障注入CPU 和内存中的故障注入网络中的故障注入文件系统中的故障注入检测故障混沌自动化自动化实验平台：薛定谔薛定谔工作流程结论
现代安全方法人为因素与故障清除低垂的果实反馈回路安全混沌工程和当前方法红色团队的问题紫色团队的问题安全混沌工程的益处安全游戏日安全混沌工程工具示例：ChaoSlingrChaoSlingr的故事结论撰稿人/审稿人

Content preview from 混沌工程

第12章实验选择问题（及解决方案实验选择问题（及解决方案）

本作品已使用人工智能进行翻译。欢迎您提供反馈和意见：translation-feedback@oreilly.com

彼得-阿尔瓦罗

很难想象现实世界中的大型系统不涉及人与机器的交互。当我们设计这样一个系统时，最困难（也是最重要）的部分往往是如何最好地利用这两种不同的资源。在本章中，我将提出抗灾社区应重新思考如何将人类和计算机作为资源加以利用。具体来说，我认为，利用可观测性基础设施开发有关系统故障模式的直觉，并最终以混沌实验的形式释放这些直觉，是计算机比人类更适合扮演的角色。最后，我将提供一些证据，证明社会各界已准备好朝这个方向迈进。

选择实验

与本书其余部分所讨论的方法论独立（并与之互补）的是实验选择问题：选择向哪些系统执行注入哪些故障。正如我们所看到的，选择正确的实验意味着可以比用户更早地发现错误，也意味着可以大规模地学习分布式系统行为的新知识。不幸的是，由于此类系统固有的复杂性，我们可能运行的不同实验的数量是天文数字--与通信实例的数量成指数关系。例如，假设我们想详尽测试一个涉及 20 个不同服务的应用程序中每种可能的节点崩溃组合的影响。即使是这个规模不大的分布式系统，也有²²⁰种--^超过100 万种--可能仅仅受到节点崩溃的影响！

"那不是错误！"

你会注意到，在本节中，我一直假设寻找 "bug "是混沌实验的主要目标。虽然我是在非正式的意义上使用 "bug "这个词，但它有两种同样有效的解释，一种是狭义的，一种是广义的：

分布式系统中一些最有害的错误是容错逻辑中的细微错误（例如，与复制、重试、回退、恢复等相关的错误），这些错误往往只有在集成测试中发生实际故障（例如，机器崩溃）时才会暴露出来，因此它们可能在代码中潜伏很长时间，一旦在生产中暴露出来，就会造成灾难性的问题。我自己的研究主要集中在这类 "故障时间 "错误上。¹
正如我在本节后面所详细描述的，只有进行混沌实验才有意义，在实验中注入的故障根据假设应该是系统可以容忍的。如果混沌实验导致了意想不到的结果（如用户可见的异常、数据丢失、系统不可用等），那么显然这个假设是不正确的--我们在某个地方犯了错误！这种错误可能是如前所述的故障时间错误，但也可能是配置错误、过于保守的安全策略或防火墙规则，或者是对基础设施运行方式的架构层面误解。更常见的情况是，问题是这些逻辑错误的组合。有原则的混沌实验也有助于识别这些 "逻辑错误"。

在阅读本节时，你可以根据自己的喜好来选择。

在这个巨大的组合空间中，我们该如何选择需要花费时间和资源的实验呢？穷尽式搜索是不可行的--即使是一个规模不大的分布式系统，在我们完成所有可能的实验之前，太阳就已经熄灭了。目前的技术水平提供了两个合理的答案，尽管并不令人满意，我们在本书中已经考虑过这两个答案。

随机搜索

早期的混沌方法（例如，该学科借用其名称的猴子）随机搜索故障空间（见图 12-1）。随机方法有很多优点。首先，它易于实现：一旦我们列举了故障空间（例如，实例崩溃的所有可能组合，使用混沌猴子开始时使用的简单示例），我们就可以简单地从中均匀随机抽样选择实验。随机方法的运行也不需要任何领域知识：它在任何分布式系统上的表现都一样好。

The circle represents the space of possible faults that a chaos infrastructure could inject. In random experiment selection, individual fault injection experiments (arrows) sometimes identify software bugs (stars) in which a failure that should have been tolerated by the system is not.

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Start your free trial

Reinventing the Organization for GenAI and LLMs

Publisher Resources

ISBN: 9798341662919

混沌工程

by Casey Rosenthal, Nora Jones

第12章实验选择问题（及解决方案实验选择问题（及解决方案）

选择实验

随机搜索

图 12-1. 圆圈表示混沌基础设施可能注入的故障空间。在随机实验选择中，单个故障注入实验（箭头）有时会识别出软件错误（星形），在这些错误中，系统本应能容忍的故障却不能容忍。 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

You might also like

Reinventing the Organization for GenAI and LLMs

What Employees Want Most in Uncertain Times

What Successful Project Managers Do

How I Built a Personal Board of Directors With GenAI

Publisher Resources

第12章 实验选择问题（及解决方案 实验选择问题（及解决方案）

选择实验

随机搜索

图 12-1. 圆圈表示混沌基础设施可能注入的故障空间。在随机实验选择中，单个故障注入实验（箭头）有时会识别出软件错误（星形），在这些错误中，系统本应能容忍的故障却不能容忍。 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,and much more.

You might also like

Reinventing the Organization for GenAI and LLMs

What Employees Want Most in Uncertain Times

What Successful Project Managers Do

How I Built a Personal Board of Directors With GenAI

Publisher Resources

第12章实验选择问题（及解决方案实验选择问题（及解决方案）

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.