book

混沌工程

by Casey Rosenthal, Nora Jones

July 2025

Intermediate to advanced

308 pages

3h 7m

Chinese

O'Reilly Media, Inc.

Book available

Read now

Unlock full access

本书使用的约定O'Reilly 在线学习如何联系我们致谢
作为代码的管理原则混沌猴诞生Go Big学科正规化社区诞生快速发展
思考复杂性遭遇复杂性示例 1：业务逻辑与应用逻辑不匹配示例 2：客户引发的重试风暴示例 3：假日代码冻结面对复杂性意外复杂性基本复杂性拥抱复杂性
动态安全模型经济性工作量安全复杂性的经济支柱状态关系环境可逆性应用于软件的复杂性经济支柱系统视角
什么是混沌工程实验与测试验证与确认混沌工程不是什么破坏性反脆弱性高级原理围绕稳态行为建立假设改变真实世界的事件在生产中运行实验自动化实验以持续运行最小化爆炸半径原则 "的未来
混沌改造旧系统中常见的设计模式较新系统中常见的设计模式实现基本容错灾难作品剧场目标反目标过程准备工作演练汇报过程如何演变获得管理层的支持结果避免缓存不一致尝试，再尝试（为了安全）不可能的结果总结
DiRT 测试的生命交战规则测试什么如何测试收集结果谷歌的测试范围总结
为什么一切都如此复杂？意外复杂情况举例简单系统只是冰山一角实验结果分类已知事件/意外后果未知事件/意外后果故障优先级探索依赖关系差异程度故障变化将变化和优先级相结合将变异扩展到依赖关系大规模部署试验结论

从灾难中学习细化实验目标安全地进行大规模实验在实践中LinkedOut故障模式使用 LiX 确定实验目标用于快速实验的浏览器扩展自动化实验结论
Capital One案例研究盲目弹性测试向混沌工程过渡CI/CD 中的混沌实验设计实验时应注意的事项工具团队结构宣传结论
混沌工程与复原力混沌工程周期的步骤设计实验混沌实验设计的工具支持有效的内部合作了解操作程序讨论范围假设结论
系统中的人类在社会技术系统中加入 "社会 "元素组织是一个系统的系统工程适应能力发现薄弱信号失败与成功，一枚硬币的两面将原则付诸实践建立假设改变真实世界的事件最小化爆炸半径案例研究 1：游戏日通信：任何组织的网络延迟案例研究 2：连接点领导力是系统的新兴属性案例研究 3：改变基本假设安全地组织混乱你需要的只是高度和方向闭环如果你没有失败，你就没有在学习
实验的原因、方法和时间为什么如何何时功能分配，或 "人定胜天"/"机定胜天替代神话结论
选择实验随机搜索专家时代可观察性：机会直觉工程的可观察性结论
减少事故的短暂性柯克帕特里克模型第一层：反应第二级：学习第 3 层次：转移第四层：结果替代投资回报率示例附带投资回报率结论
合作心态开放科学；开放源代码开放式混沌实验实验结果、可共享结果总结
采用谁参与了混沌工程有多少组织参与了混沌工程先决条件采用的障碍复杂性将所有内容整合在一起
简历的来源履历系统的类型野生 CV：ChAPChAP：选择实验ChAP：运行实验ChAP 中的高级原理作为持续验证的 ChAPCV 即将进入您身边的系统性能测试数据工件正确性
网络物理系统的兴起功能安全与混沌工程FMEA 和混沌工程网络物理系统中的软件超越 FMEA 的混沌工程探针效应解决探针效应结论
什么是人与组织绩效 (HOP)？HOP 的关键原则原则 1：错误是正常的原则 2：指责不能解决问题原则 3：环境影响行为原则 4：学习和改进至关重要原则 5：有意回应很重要HOP 与混沌工程混沌工程与 HOP 的实践结论
我们为什么需要混沌工程？鲁棒性和稳定性真实世界的例子应用混沌工程我们拥抱混沌的方式故障注入应用程序中的故障注入CPU 和内存中的故障注入网络中的故障注入文件系统中的故障注入检测故障混沌自动化自动化实验平台：薛定谔薛定谔工作流程结论
现代安全方法人为因素与故障清除低垂的果实反馈回路安全混沌工程和当前方法红色团队的问题紫色团队的问题安全混沌工程的益处安全游戏日安全混沌工程工具示例：ChaoSlingrChaoSlingr的故事结论撰稿人/审稿人

Content preview from 混沌工程

第 21 章结论结论

本作品已使用人工智能进行翻译。欢迎您提供反馈和意见：translation-feedback@oreilly.com

复原力是由人创造的。编写功能的工程师、操作和维护系统的人员，甚至为系统分配资源的管理层，都是复杂系统的一部分。我们每个人都在创造复原力的过程中发挥着作用，利用我们的经验并集中关注系统的这一特性。

工具可以提供帮助。混沌工程是我们可以用来提高系统复原力的工具。作为本行业的从业者，我们的成功并不取决于消除系统的复杂性，而是取决于学会与复杂性共存、驾驭复杂性，并在潜在复杂性的基础上优化其他关键业务属性。

当我们说明工具和工具周围的人之间的区别时，我们将工具称为 "线下"。而将工具落实到位的人员和组织则是 "线上"。作为软件专业人员，我们经常关注的是 "线下 "发生的事情。我们更容易发现问题所在，也更容易指责这些问题。如果能将问题归结为一行代码，然后修复这一行代码，我们就会在心理上感到满足。但我们必须抵制这种诱惑。

在本书中，我们深入探讨了线下和线上的工作。我们阐述了这些工作如何有助于构建更好的系统。我们对人员、组织、人际互动、工具、自动化、架构、创新和数字化转型都进行了探讨。我们认为，人与技术共同构成了一个 "社会技术 "系统，如果不探索硬币的两面，并将它们的互动方式纳入背景，就无法完全理解这个系统。

这可能会产生一些意想不到的副作用。例如，我们并不总能通过编写更多代码来提高系统的可靠性。通常情况下，提高系统鲁棒性的最佳策略是围绕如何应对危险建立更好的一致性。对齐是无法工程化的，至少无法像软件那样工程化。

延斯-拉斯穆森（Jens Rasmussen）经过数十年的研究，从社会学、决策理论、组织社会学和心理学，到人为因素和工程学，他写道："我们的研究结果表明，系统的协调性是一个非常重要的因素：

，改善风险管理最有希望的一般方法似乎是明确确定安全运行的界限，同时努力让参与者看到这些界限，并让他们有机会学习如何应对这些界限。除了提高安全性外，使边界清晰可见还可以提高系统的有效性，因为在已知边界附近运行可能比要求过大的余量更安全，因为后者在压力下可能会以不可预测的方式恶化。¹

这一结论的结果是，与寻找 "根本原因 "或执行规则相比，事件审查和弹性属性的情境化更加务实和可行。

事实上，强制执行提高可靠性的规则可能会误入歧途。例如

从直觉上讲，为系统增加冗余会使其更加安全。不幸的是，经验告诉我们，这种直觉是不正确的。冗余本身并不能使系统更安全，在很多情况下，冗余反而会使系统更容易失效。请看挑战者号航天飞机固体火箭助推器上的冗余 O 形环。由于有了辅助 O 形环，工程师们在固体火箭助推器上的工作随着时间的推移使主 O 形环的失效正常化，从而使挑战者号在超出规格的情况下运行，最终导致了 1986 年的灾难性故障。²
从直觉上讲，消除系统的复杂性会使其更加安全，这是有道理的。不幸的是，经验告诉我们，这种直觉是不正确的。在构建系统的过程中，我们可以对各种事情进行优化。我们可以优化的一个特性就是安全性。为了做到这一点，我们必须构建一些东西。如果从一个稳定的系统中去除复杂性，就有可能去除使系统安全的功能。
从直觉上讲，高效运行一个系统会使其更安全，这是有道理的。不幸的是，经验告诉我们，这种直觉是错误的。高效的系统是脆弱的。允许低效是件好事。低效率允许系统吸收冲击，允许人们做出决策，以补救无人计划的故障。