book

混沌工程

by Casey Rosenthal, Nora Jones

July 2025

Intermediate to advanced

308 pages

3h 7m

Chinese

O'Reilly Media, Inc.

Book available

Read now

Unlock full access

本书使用的约定O'Reilly 在线学习如何联系我们致谢
作为代码的管理原则混沌猴诞生Go Big学科正规化社区诞生快速发展
思考复杂性遭遇复杂性示例 1：业务逻辑与应用逻辑不匹配示例 2：客户引发的重试风暴示例 3：假日代码冻结面对复杂性意外复杂性基本复杂性拥抱复杂性
动态安全模型经济性工作量安全复杂性的经济支柱状态关系环境可逆性应用于软件的复杂性经济支柱系统视角
什么是混沌工程实验与测试验证与确认混沌工程不是什么破坏性反脆弱性高级原理围绕稳态行为建立假设改变真实世界的事件在生产中运行实验自动化实验以持续运行最小化爆炸半径原则 "的未来
混沌改造旧系统中常见的设计模式较新系统中常见的设计模式实现基本容错灾难作品剧场目标反目标过程准备工作演练汇报过程如何演变获得管理层的支持结果避免缓存不一致尝试，再尝试（为了安全）不可能的结果总结
DiRT 测试的生命交战规则测试什么如何测试收集结果谷歌的测试范围总结
为什么一切都如此复杂？意外复杂情况举例简单系统只是冰山一角实验结果分类已知事件/意外后果未知事件/意外后果故障优先级探索依赖关系差异程度故障变化将变化和优先级相结合将变异扩展到依赖关系大规模部署试验结论

从灾难中学习细化实验目标安全地进行大规模实验在实践中LinkedOut故障模式使用 LiX 确定实验目标用于快速实验的浏览器扩展自动化实验结论
Capital One案例研究盲目弹性测试向混沌工程过渡CI/CD 中的混沌实验设计实验时应注意的事项工具团队结构宣传结论
混沌工程与复原力混沌工程周期的步骤设计实验混沌实验设计的工具支持有效的内部合作了解操作程序讨论范围假设结论
系统中的人类在社会技术系统中加入 "社会 "元素组织是一个系统的系统工程适应能力发现薄弱信号失败与成功，一枚硬币的两面将原则付诸实践建立假设改变真实世界的事件最小化爆炸半径案例研究 1：游戏日通信：任何组织的网络延迟案例研究 2：连接点领导力是系统的新兴属性案例研究 3：改变基本假设安全地组织混乱你需要的只是高度和方向闭环如果你没有失败，你就没有在学习
实验的原因、方法和时间为什么如何何时功能分配，或 "人定胜天"/"机定胜天替代神话结论
选择实验随机搜索专家时代可观察性：机会直觉工程的可观察性结论
减少事故的短暂性柯克帕特里克模型第一层：反应第二级：学习第 3 层次：转移第四层：结果替代投资回报率示例附带投资回报率结论
合作心态开放科学；开放源代码开放式混沌实验实验结果、可共享结果总结
采用谁参与了混沌工程有多少组织参与了混沌工程先决条件采用的障碍复杂性将所有内容整合在一起
简历的来源履历系统的类型野生 CV：ChAPChAP：选择实验ChAP：运行实验ChAP 中的高级原理作为持续验证的 ChAPCV 即将进入您身边的系统性能测试数据工件正确性
网络物理系统的兴起功能安全与混沌工程FMEA 和混沌工程网络物理系统中的软件超越 FMEA 的混沌工程探针效应解决探针效应结论
什么是人与组织绩效 (HOP)？HOP 的关键原则原则 1：错误是正常的原则 2：指责不能解决问题原则 3：环境影响行为原则 4：学习和改进至关重要原则 5：有意回应很重要HOP 与混沌工程混沌工程与 HOP 的实践结论
我们为什么需要混沌工程？鲁棒性和稳定性真实世界的例子应用混沌工程我们拥抱混沌的方式故障注入应用程序中的故障注入CPU 和内存中的故障注入网络中的故障注入文件系统中的故障注入检测故障混沌自动化自动化实验平台：薛定谔薛定谔工作流程结论
现代安全方法人为因素与故障清除低垂的果实反馈回路安全混沌工程和当前方法红色团队的问题紫色团队的问题安全混沌工程的益处安全游戏日安全混沌工程工具示例：ChaoSlingrChaoSlingr的故事结论撰稿人/审稿人

Content preview from 混沌工程

第二部分. 行动中的原则

我们认为，在本书中展示来自不同组织的不同声音非常重要。没有放之四海而皆准的混沌工程计划。本书中的一些观点和指导并不完全一致，这没有关系。我们并不回避不同意见和反对观点。你会发现一些共同的主题，比如在混沌程序中加入一个 "红色大按钮"，也会发现一些相互冲突的观点，比如混沌工程到底是一种测试还是实验。¹

我们特别选择了来自 Slack、谷歌、微软、LinkedIn 和 Capital One 的观点。我们提出了最有说服力的例子和叙述，读者可以根据自己的情况选择最相关的例子和叙述。在复杂系统中，情境为王。

我们从第 4 章"Slack 的灾难作品剧场 "开始，Richard Crowley 描述了 Slack 混沌工程的特殊方法。Slack 结合了传统系统和现代系统，为探索不同的混沌工程方法提供了目标丰富的环境。理查德选择了一种独特的方法来开展 "游戏日 "活动，他说："通过 20 多次演练，我们发现了漏洞，证明了新旧系统的安全性，并影响了许多工程团队的路线图。

在第 5 章"谷歌 DiRT：灾难恢复测试 "中，杰森-卡洪（Jason Cahoon）带领我们走进了谷歌类似于 "混沌工程 "的 "DiRT"。这是对混沌工程最有经验的探索之一，因为谷歌运营 DiRT 项目已经有一段时间了。本章探讨了谷歌方法背后的理念："仅仅希望系统在极端情况下表现可靠并不是好策略。你必须预料到事情会失败，在设计时考虑到失败，并不断证明这些设计仍然有效"。它还描述了这个长期项目的重点和价值，强化了我们在复杂系统分析中看到的主题："DiRT不是为了破坏而破坏，它的价值来自于发现你不知道的失效模式"。

"不幸的是，一切都没有按计划进行"，这句话可以用来概括我们在大规模操作系统中所经历的许多意外。在第 6 章"微软实验的差异和优先级 "中，Oleg Surmachev 就如何确定实验的优先级提供了非常有条理的观点。事件的潜在影响是本章所介绍的众多考虑因素的核心。在寻找 "未知事件/意料之外的后果 "之前，积极探索可能存在的薄弱环节，可以建立一个更强大的系统，并节省不必要的实验。

在第7章"LinkedIn关注会员 "中，罗根-罗森（Logan Rosen ）强调了客户体验的重要性。幸运的是，有很多策略可以最大限度地减少混乱实验中的爆炸半径和对客户的潜在影响。Logan 带我们参观了 LinkedIn 实施此类策略的项目。"虽然一些小的影响可能是不可避免的，但非常重要的一点是，要尽量减少混乱实验对最终用户造成的伤害，并制定一个简单的恢复计划，让一切恢复正常"。

Raji Chockaiyan撰写的第8章"Capital One在金融服务中采用混沌工程的情况和演变 "为本书的部分画上了圆满的句号。Capital One公司多年来一直在推行混沌工程计划。拉吉记录了这门学科的发展历程，从手工操作的小行动到协调的 "游戏日"，再到他们现在支持的复杂的内部工具。所有这些都是在高度规范的流程和结果的背景下进行的：在银行业，"可观察性和审计跟踪与设计定制实验的能力同样重要"。

通过与这五个用例展开对话，我们希望表明，混沌工程学既有足够的历史，有价值记录和常见的行业实践，又足够年轻，可以灵活多样地诠释和实施。

¹本书作者认为混沌工程是一种实验形式。有些作者不同意这一观点，他们使用了 "测试 "一词。参见第 3 章 "实验与测试 "一节。