book

混沌工程

Name: 混沌工程
ISBN: 9798341662919

by Casey Rosenthal, Nora Jones

July 2025

Intermediate to advanced

308 pages

3h 7m

Chinese

O'Reilly Media, Inc.

Read now

Unlock full access

序言
本书使用的约定O'Reilly 在线学习如何联系我们致谢
导言：混沌的诞生
作为代码的管理原则混沌猴诞生Go Big学科正规化社区诞生快速发展
I.搭建舞台
1.遭遇复杂系统
思考复杂性遭遇复杂性示例 1：业务逻辑与应用逻辑不匹配示例 2：客户引发的重试风暴示例 3：假日代码冻结面对复杂性意外复杂性基本复杂性拥抱复杂性
2.驾驭复杂系统
动态安全模型经济性工作量安全复杂性的经济支柱状态关系环境可逆性应用于软件的复杂性经济支柱系统视角
3.原则概述
什么是混沌工程实验与测试验证与确认混沌工程不是什么破坏性反脆弱性高级原理围绕稳态行为建立假设改变真实世界的事件在生产中运行实验自动化实验以持续运行最小化爆炸半径原则 "的未来
II.行动原则
4.斯拉克的灾难作品剧场
混沌改造旧系统中常见的设计模式较新系统中常见的设计模式实现基本容错灾难作品剧场目标反目标过程准备工作演练汇报过程如何演变获得管理层的支持结果避免缓存不一致尝试，再尝试（为了安全）不可能的结果总结
5.谷歌 DiRT：灾难恢复测试
DiRT 测试的生命交战规则测试什么如何测试收集结果谷歌的测试范围总结
6.微软实验的差异性和优先级
为什么一切都如此复杂？意外复杂情况举例简单系统只是冰山一角实验结果分类已知事件/意外后果未知事件/意外后果故障优先级探索依赖关系差异程度故障变化将变化和优先级相结合将变异扩展到依赖关系大规模部署试验结论

7.LinkedIn 关注会员
从灾难中学习细化实验目标安全地进行大规模实验在实践中LinkedOut故障模式使用 LiX 确定实验目标用于快速实验的浏览器扩展自动化实验结论
8.Capital One 采用和发展混沌工程 9.
Capital One案例研究盲目弹性测试向混沌工程过渡CI/CD 中的混沌实验设计实验时应注意的事项工具团队结构宣传结论
III.人为因素
9.创造前瞻性
混沌工程与复原力混沌工程周期的步骤设计实验混沌实验设计的工具支持有效的内部合作了解操作程序讨论范围假设结论
10.人文混沌
系统中的人类在社会技术系统中加入 "社会 "元素组织是一个系统的系统工程适应能力发现薄弱信号失败与成功，一枚硬币的两面将原则付诸实践建立假设改变真实世界的事件最小化爆炸半径案例研究 1：游戏日通信：任何组织的网络延迟案例研究 2：连接点领导力是系统的新兴属性案例研究 3：改变基本假设安全地组织混乱你需要的只是高度和方向闭环如果你没有失败，你就没有在学习
11.循环中的人
实验的原因、方法和时间为什么如何何时功能分配，或 "人定胜天"/"机定胜天替代神话结论
12.实验选择问题（及解决方案）
选择实验随机搜索专家时代可观察性：机会直觉工程的可观察性结论
IV.商业因素
13.混沌工程的投资回报率
减少事故的短暂性柯克帕特里克模型第一层：反应第二级：学习第 3 层次：转移第四层：结果替代投资回报率示例附带投资回报率结论
14.开放思想、开放科学和开放混沌
合作心态开放科学；开放源代码开放式混沌实验实验结果、可共享结果总结
15.混沌成熟度模型
采用谁参与了混沌工程有多少组织参与了混沌工程先决条件采用的障碍复杂性将所有内容整合在一起
V.演变
16.持续验证
简历的来源履历系统的类型野生 CV：ChAPChAP：选择实验ChAP：运行实验ChAP 中的高级原理作为持续验证的 ChAPCV 即将进入您身边的系统性能测试数据工件正确性
17.让我们开始网络物理之旅
网络物理系统的兴起功能安全与混沌工程FMEA 和混沌工程网络物理系统中的软件超越 FMEA 的混沌工程探针效应解决探针效应结论
18.HOP 与混沌工程
什么是人与组织绩效 (HOP)？HOP 的关键原则原则 1：错误是正常的原则 2：指责不能解决问题原则 3：环境影响行为原则 4：学习和改进至关重要原则 5：有意回应很重要HOP 与混沌工程混沌工程与 HOP 的实践结论
19.数据库上的混沌工程
我们为什么需要混沌工程？鲁棒性和稳定性真实世界的例子应用混沌工程我们拥抱混沌的方式故障注入应用程序中的故障注入CPU 和内存中的故障注入网络中的故障注入文件系统中的故障注入检测故障混沌自动化自动化实验平台：薛定谔薛定谔工作流程结论
20.安全混沌工程案例
现代安全方法人为因素与故障清除低垂的果实反馈回路安全混沌工程和当前方法红色团队的问题紫色团队的问题安全混沌工程的益处安全游戏日安全混沌工程工具示例：ChaoSlingrChaoSlingr的故事结论撰稿人/审稿人
21.结论
索引

Content preview from 混沌工程

第 5 章. 谷歌 DiRT：灾难恢复测试

本作品已使用人工智能进行翻译。欢迎您提供反馈和意见：translation-feedback@oreilly.com

杰森-卡洪

"希望不是战略"。这句是谷歌网站可靠性工程（SRE）团队的座右铭，它完美地体现了混沌工程的核心理念。一个系统的设计可以容忍故障，但在大规模明确测试故障条件之前，总是存在期望与现实不符的风险。谷歌的 DiRT（灾难恢复测试）项目是由网站可靠性工程师（SRE）于 2006 年创立的，目的是故意在关键技术系统和业务流程中制造故障，以暴露出无法估量的风险。倡导 DiRT 计划的工程师们提出了一个重要观点：当实际情况并不紧急时，分析生产中的紧急情况就会变得容易得多。

灾难测试有助于证明系统在故障处理得当的情况下的恢复能力，并在处理不当的情况下以受控方式暴露可靠性风险。在受控事件中暴露可靠性风险，可以进行全面分析并预先减轻影响，而不是仅仅等待问题暴露，因为问题的严重性和时间压力会放大失误，迫使人们根据不完整的信息做出危险的决定。

DiRT 从开始，由谷歌工程师进行角色扮演演练。¹类似于其他公司的 "游戏日 "活动。他们尤其关注灾难和自然灾害会如何扰乱谷歌的运营。尽管谷歌的员工分布在全球各地，但其在旧金山湾区的业务却不成比例地庞大，该地区尤其容易发生地震。谷歌将如此多的内部基础设施集中在一个地区，这就提出了一个耐人寻味的问题："如果山景城园区及其员工在几天内完全无法使用，现实中会发生什么？这会如何扰乱我们的系统和流程？

研究在山景城托管的服务中断所造成的影响激发了谷歌最初的许多灾难测试，但随着熟悉度（或许是臭名昭著......）的增加，对提高可靠性感兴趣的团队开始利用全公司范围内的 DiRT 事件作为深入探究自身服务的机会。纯理论和桌面演练让位于服务所有者注入真实但可控的故障（增加延迟、禁用与 "非关键 "依赖关系的通信、在关键人员缺席的情况下演练业务连续性计划等）。随着时间的推移，参与的团队越来越多，实际测试也越来越多；随着测试范围的扩大，谷歌整体架构中需要学习和改进的地方也越来越多：不为人知的硬性依赖、回退策略失灵、保障措施完全失效、规划中大大小小的缺陷，这些缺陷在事后显而易见，但在事前却几乎看不到，或者只有在 "恰到好处"（或错误，取决于你如何看待它）的不幸条件组合下才会暴露出来。

该计划自推出之初就不断发展壮大，目前谷歌全球各地的团队已经开展了数千次 DiRT 演习。大型协调活动贯穿全年，团队定期主动测试系统和自身。SRE 团队必须在一定程度上参与 DiRT，公司也大力鼓励各处的服务所有者参与 DiRT。很大一部分参与不仅来自软件工程和 SRE 组织：物理安全、信息安全、数据中心运营、通信、设施、IT、人力资源和财务业务部门都设计并执行了 DiRT 测试。

近年来，，重点是为网络和软件系统提供一套标准化的自动测试。工程师可以使用开箱即用的预构建自动测试，在共享基础设施和存储系统出现故障时验证系统行为。自动测试可持续运行，以防止可靠性倒退，并在极端或异常情况下验证服务水平目标。这些测试降低了入门门槛，为更复杂的特定架构故障测试提供了跳板。自动测试的执行次数已超过传统 DiRT 测试总数的数量级，在短短几年内就达到了几百万次测试运行，这充分体现了自动测试的威力。

谷歌属性以其大规模的高可靠性而闻名，但谷歌闻名的可靠性并不是魔术。提高可靠性意味着要挑战对系统的假设，熟悉并准备应对不常见的故障组合（在谷歌这样的规模中，百万分之一的故障几率每秒就会发生数次）。仅仅希望系统在极端情况下表现可靠并不是一个好的策略。你必须预料到事情会失败，在设计时考虑到失败，并不断证明这些设计仍然有效。 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9798341662919

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

混沌工程

by Casey Rosenthal, Nora Jones

第 5 章. 谷歌 DiRT：灾难恢复测试

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.