book

混沌工程

by Casey Rosenthal, Nora Jones

July 2025

Intermediate to advanced

308 pages

3h 7m

Chinese

O'Reilly Media, Inc.

Book available

Read now

Unlock full access

本书使用的约定O'Reilly 在线学习如何联系我们致谢
作为代码的管理原则混沌猴诞生Go Big学科正规化社区诞生快速发展
思考复杂性遭遇复杂性示例 1：业务逻辑与应用逻辑不匹配示例 2：客户引发的重试风暴示例 3：假日代码冻结面对复杂性意外复杂性基本复杂性拥抱复杂性
动态安全模型经济性工作量安全复杂性的经济支柱状态关系环境可逆性应用于软件的复杂性经济支柱系统视角
什么是混沌工程实验与测试验证与确认混沌工程不是什么破坏性反脆弱性高级原理围绕稳态行为建立假设改变真实世界的事件在生产中运行实验自动化实验以持续运行最小化爆炸半径原则 "的未来
混沌改造旧系统中常见的设计模式较新系统中常见的设计模式实现基本容错灾难作品剧场目标反目标过程准备工作演练汇报过程如何演变获得管理层的支持结果避免缓存不一致尝试，再尝试（为了安全）不可能的结果总结
DiRT 测试的生命交战规则测试什么如何测试收集结果谷歌的测试范围总结
为什么一切都如此复杂？意外复杂情况举例简单系统只是冰山一角实验结果分类已知事件/意外后果未知事件/意外后果故障优先级探索依赖关系差异程度故障变化将变化和优先级相结合将变异扩展到依赖关系大规模部署试验结论

从灾难中学习细化实验目标安全地进行大规模实验在实践中LinkedOut故障模式使用 LiX 确定实验目标用于快速实验的浏览器扩展自动化实验结论
Capital One案例研究盲目弹性测试向混沌工程过渡CI/CD 中的混沌实验设计实验时应注意的事项工具团队结构宣传结论
混沌工程与复原力混沌工程周期的步骤设计实验混沌实验设计的工具支持有效的内部合作了解操作程序讨论范围假设结论
系统中的人类在社会技术系统中加入 "社会 "元素组织是一个系统的系统工程适应能力发现薄弱信号失败与成功，一枚硬币的两面将原则付诸实践建立假设改变真实世界的事件最小化爆炸半径案例研究 1：游戏日通信：任何组织的网络延迟案例研究 2：连接点领导力是系统的新兴属性案例研究 3：改变基本假设安全地组织混乱你需要的只是高度和方向闭环如果你没有失败，你就没有在学习
实验的原因、方法和时间为什么如何何时功能分配，或 "人定胜天"/"机定胜天替代神话结论
选择实验随机搜索专家时代可观察性：机会直觉工程的可观察性结论
减少事故的短暂性柯克帕特里克模型第一层：反应第二级：学习第 3 层次：转移第四层：结果替代投资回报率示例附带投资回报率结论
合作心态开放科学；开放源代码开放式混沌实验实验结果、可共享结果总结
采用谁参与了混沌工程有多少组织参与了混沌工程先决条件采用的障碍复杂性将所有内容整合在一起
简历的来源履历系统的类型野生 CV：ChAPChAP：选择实验ChAP：运行实验ChAP 中的高级原理作为持续验证的 ChAPCV 即将进入您身边的系统性能测试数据工件正确性
网络物理系统的兴起功能安全与混沌工程FMEA 和混沌工程网络物理系统中的软件超越 FMEA 的混沌工程探针效应解决探针效应结论
什么是人与组织绩效 (HOP)？HOP 的关键原则原则 1：错误是正常的原则 2：指责不能解决问题原则 3：环境影响行为原则 4：学习和改进至关重要原则 5：有意回应很重要HOP 与混沌工程混沌工程与 HOP 的实践结论
我们为什么需要混沌工程？鲁棒性和稳定性真实世界的例子应用混沌工程我们拥抱混沌的方式故障注入应用程序中的故障注入CPU 和内存中的故障注入网络中的故障注入文件系统中的故障注入检测故障混沌自动化自动化实验平台：薛定谔薛定谔工作流程结论
现代安全方法人为因素与故障清除低垂的果实反馈回路安全混沌工程和当前方法红色团队的问题紫色团队的问题安全混沌工程的益处安全游戏日安全混沌工程工具示例：ChaoSlingrChaoSlingr的故事结论撰稿人/审稿人

Content preview from 混沌工程

第7章 LinkedIn关注会员

本作品已使用人工智能进行翻译。欢迎您提供反馈和意见：translation-feedback@oreilly.com

洛根-罗森

每当你在生产中运行一个混沌实验时，你都有可能影响到产品的用户。没有忠实的用户，我们就没有系统可维护，因此我们在精心策划实验时，必须把用户放在第一位。虽然一些小的影响可能是不可避免的，但非常重要的一点是，要尽量减小混乱实验的爆炸半径，并制定简单的恢复计划，使一切恢复正常。事实上，将爆炸半径最小化是混沌工程的高级原则之一（见第3章）。在本章中，你将学习到坚持这一原则的最佳实践，以及如何在软件行业内实施这一原则的故事。

为了更好地理解这一主题，让我们将视线转移到汽车行业。所有现代汽车都要经过制造商、第三方和政府的严格碰撞测试，以确保发生事故时乘客的安全。为了进行这些测试，工程师们会利用模拟人体的碰撞测试假人，这些假人配有多个传感器，可帮助确定碰撞对实际人体的影响。

在过去的几十年里，汽车碰撞测试假人有了长足的发展。2018 年，美国国家公路交通安全管理局（NHTSA）推出了 Thor，它被称为有史以来最逼真的碰撞测试假人。雷神拥有约 140 个数据通道，为工程师提供了丰富的数据，让他们了解事故会对真人造成怎样的影响，而像雷神这样的假人能够让制造商和政府对投放市场的车辆充满信心。¹

这似乎是不言自明的：既然可以模拟撞击，为什么还要让真人经受故意撞击，以测试车辆的结构完整性和安全机制呢？这一想法同样适用于软件的混沌工程。

就像雷神的几个传感器决定撞击力一样，多年来，工程师们已经开发出了多种方法来检测稳定状态的偏差。即使是规模有限的故障实验，我们也能看到它是否会对指标造成扰动，是否会对用户体验造成影响。实验的设计应尽可能减少对用户的影响，至少要等到您对自己的系统有足够的信心，能够以类似的方式大规模处理这些故障。

即使您采取了所有必要的预防措施（甚至更多）来最大限度地减少混乱实验中对用户的伤害，仍有可能造成不可预见的影响。正如墨菲定律所说，"任何可能出错的事情都会出错"。如果实验导致应用程序开始出现超出用户可接受范围的错误行为，您需要一个红色按钮来关闭实验。只需点击一下鼠标，就能轻松恢复到稳定状态。

从灾难中学习

回顾一下那些出了差错的著名安全实验事件，有助于我们总结出应该如何规划和实施自己的混乱实验。即使实验的介质不同，我们也可以从这些实验的失误中得到启示，以尽量避免我们犯类似的错误，最终造成不良后果。

1986 年的切尔诺贝利灾难是最臭名昭著的灾难性工业失败案例之一。当时，核电站的工人正在进行一项实验，以观察在断电的情况下，核芯是否仍能得到充分冷却。尽管有可能造成严重后果，但安全人员在实验过程中并不在场，也没有与操作人员协调，以确保他们的行动将风险降至最低。

在实验过程中，本应只是关闭电源，结果却恰恰相反；电量激增，引发了数次爆炸和火灾，导致放射性尘降，对周围地区造成了灾难性后果。²在实验失败后的几周内，有 31 人死亡，其中两人是核电站的工人，其余是因辐射中毒的应急工作人员。³

事故后的分析表明，当时的系统处于不稳定状态，没有相应的保障措施，也没有 "足够的仪器和警报来警告和提醒操作人员注意危险"。⁴这些因素导致了我们今天所知道的灾难，而它们与计划和执行软件实验所涉及的因素之间有着明显的相似之处。

即使是在风险较低的情况下，例如在网站中注入错误而不是减少核电站的电力，我们仍然需要在每次实验中将用户放在第一位。在进行混沌实验时，我们必须汲取切尔诺贝利事故的教训，确保以安全第一的方式规划实验，将对用户的潜在影响降至最低。 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Start your free trial

Reinventing the Organization for GenAI and LLMs

Publisher Resources

ISBN: 9798341662919

混沌工程

by Casey Rosenthal, Nora Jones

第7章 LinkedIn关注会员

从灾难中学习

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

You might also like

Reinventing the Organization for GenAI and LLMs

What Employees Want Most in Uncertain Times

What Successful Project Managers Do

How I Built a Personal Board of Directors With GenAI

Publisher Resources

第7章 LinkedIn关注会员

从灾难中学习

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,and much more.

You might also like

Reinventing the Organization for GenAI and LLMs

What Employees Want Most in Uncertain Times

What Successful Project Managers Do

How I Built a Personal Board of Directors With GenAI

Publisher Resources

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.