book

混沌工程

Name: 混沌工程
ISBN: 9798341662919

by Casey Rosenthal, Nora Jones

July 2025

Intermediate to advanced

308 pages

3h 7m

Chinese

O'Reilly Media, Inc.

Read now

Unlock full access

序言
本书使用的约定O'Reilly 在线学习如何联系我们致谢
导言：混沌的诞生
作为代码的管理原则混沌猴诞生Go Big学科正规化社区诞生快速发展
I.搭建舞台
1.遭遇复杂系统
思考复杂性遭遇复杂性示例 1：业务逻辑与应用逻辑不匹配示例 2：客户引发的重试风暴示例 3：假日代码冻结面对复杂性意外复杂性基本复杂性拥抱复杂性
2.驾驭复杂系统
动态安全模型经济性工作量安全复杂性的经济支柱状态关系环境可逆性应用于软件的复杂性经济支柱系统视角
3.原则概述
什么是混沌工程实验与测试验证与确认混沌工程不是什么破坏性反脆弱性高级原理围绕稳态行为建立假设改变真实世界的事件在生产中运行实验自动化实验以持续运行最小化爆炸半径原则 "的未来
II.行动原则
4.斯拉克的灾难作品剧场
混沌改造旧系统中常见的设计模式较新系统中常见的设计模式实现基本容错灾难作品剧场目标反目标过程准备工作演练汇报过程如何演变获得管理层的支持结果避免缓存不一致尝试，再尝试（为了安全）不可能的结果总结
5.谷歌 DiRT：灾难恢复测试
DiRT 测试的生命交战规则测试什么如何测试收集结果谷歌的测试范围总结
6.微软实验的差异性和优先级
为什么一切都如此复杂？意外复杂情况举例简单系统只是冰山一角实验结果分类已知事件/意外后果未知事件/意外后果故障优先级探索依赖关系差异程度故障变化将变化和优先级相结合将变异扩展到依赖关系大规模部署试验结论

7.LinkedIn 关注会员
从灾难中学习细化实验目标安全地进行大规模实验在实践中LinkedOut故障模式使用 LiX 确定实验目标用于快速实验的浏览器扩展自动化实验结论
8.Capital One 采用和发展混沌工程 9.
Capital One案例研究盲目弹性测试向混沌工程过渡CI/CD 中的混沌实验设计实验时应注意的事项工具团队结构宣传结论
III.人为因素
9.创造前瞻性
混沌工程与复原力混沌工程周期的步骤设计实验混沌实验设计的工具支持有效的内部合作了解操作程序讨论范围假设结论
10.人文混沌
系统中的人类在社会技术系统中加入 "社会 "元素组织是一个系统的系统工程适应能力发现薄弱信号失败与成功，一枚硬币的两面将原则付诸实践建立假设改变真实世界的事件最小化爆炸半径案例研究 1：游戏日通信：任何组织的网络延迟案例研究 2：连接点领导力是系统的新兴属性案例研究 3：改变基本假设安全地组织混乱你需要的只是高度和方向闭环如果你没有失败，你就没有在学习
11.循环中的人
实验的原因、方法和时间为什么如何何时功能分配，或 "人定胜天"/"机定胜天替代神话结论
12.实验选择问题（及解决方案）
选择实验随机搜索专家时代可观察性：机会直觉工程的可观察性结论
IV.商业因素
13.混沌工程的投资回报率
减少事故的短暂性柯克帕特里克模型第一层：反应第二级：学习第 3 层次：转移第四层：结果替代投资回报率示例附带投资回报率结论
14.开放思想、开放科学和开放混沌
合作心态开放科学；开放源代码开放式混沌实验实验结果、可共享结果总结
15.混沌成熟度模型
采用谁参与了混沌工程有多少组织参与了混沌工程先决条件采用的障碍复杂性将所有内容整合在一起
V.演变
16.持续验证
简历的来源履历系统的类型野生 CV：ChAPChAP：选择实验ChAP：运行实验ChAP 中的高级原理作为持续验证的 ChAPCV 即将进入您身边的系统性能测试数据工件正确性
17.让我们开始网络物理之旅
网络物理系统的兴起功能安全与混沌工程FMEA 和混沌工程网络物理系统中的软件超越 FMEA 的混沌工程探针效应解决探针效应结论
18.HOP 与混沌工程
什么是人与组织绩效 (HOP)？HOP 的关键原则原则 1：错误是正常的原则 2：指责不能解决问题原则 3：环境影响行为原则 4：学习和改进至关重要原则 5：有意回应很重要HOP 与混沌工程混沌工程与 HOP 的实践结论
19.数据库上的混沌工程
我们为什么需要混沌工程？鲁棒性和稳定性真实世界的例子应用混沌工程我们拥抱混沌的方式故障注入应用程序中的故障注入CPU 和内存中的故障注入网络中的故障注入文件系统中的故障注入检测故障混沌自动化自动化实验平台：薛定谔薛定谔工作流程结论
20.安全混沌工程案例
现代安全方法人为因素与故障清除低垂的果实反馈回路安全混沌工程和当前方法红色团队的问题紫色团队的问题安全混沌工程的益处安全游戏日安全混沌工程工具示例：ChaoSlingrChaoSlingr的故事结论撰稿人/审稿人
21.结论
索引

Content preview from 混沌工程

简介：混沌的诞生混沌的诞生

本作品已使用人工智能进行翻译。欢迎您提供反馈和意见：translation-feedback@oreilly.com

混沌工程在软件开发领域，混沌工程仍是一门相对较新的学科。本文将介绍混沌工程的历史，从最初的默默无闻，到现在所有主要行业都以某种形式采用混沌工程。在过去的三年里，问题已经从 "我们应该做混沌工程吗？"变成了 "开始做混沌工程的最佳方法是什么？"

我们这门新兴学科的历史解释了我们是如何从第一个问题过渡到刚刚提出的第二个问题的。我们不想仅仅讲述一个日期和运动的故事，以澄清事实。我们想讲述的是这门学科是如何兴起的，从而让你明白它为什么会以这样的方式兴起，以及你可以如何从这条道路中学到东西，从而从实践中获得最大收益。

故事从Netflix开始，本书作者凯西-罗森塔尔（Casey Rosenthal）和诺拉-琼斯（Nora Jones）都曾在Netflix工作，当时混沌团队定义并推广了混沌工程。¹Netflix发现了混沌工程的真正商业价值，当其他人也看到这一点时，一个围绕混沌工程的社区逐渐发展起来，并将其推广到整个技术领域。

作为代码的管理原则

从 2008 年开始，Netflix 非常公开地表示²从数据中心向 Cloud 迁移。同年 8 月，数据中心发生了一起重大数据库损坏事件，导致 Netflix 三天内无法发送 DVD。当时流媒体视频还没有普及，DVD 的配送是他们的主要业务。

当时的想法是，数据中心将他们锁定在单点故障（如大型数据库）和垂直扩展组件的架构中。如果迁移到 Cloud，就必须水平扩展组件，从而减少单点故障。

事情并没有完全按计划进行。首先，他们花了八年时间才从数据中心完全抽身出来。与我们的利益更相关的是，在转向水平扩展云部署实践的同时，流媒体服务的正常运行时间并没有像他们预期的那样得到提升。³

要解释这一点，我们必须回顾一下，2008 年，亚马逊 Web Services（AWS）远不如现在成熟。当时的云计算还不是一种商品，也不像现在这样可以直接部署。当时的云服务确实有很多承诺，其中之一就是实例⁴偶尔会在没有任何警告的情况下闪烁消失。这种特殊形式的故障事件在数据中心中非常罕见，因为在数据中心中，功能强大的机器得到了很好的维护，而且人们通常对特定机器的特殊性了如指掌。而在云环境中，同样的功率是由许多在商品硬件上运行的小型机器提供的，因此不幸的是，这种情况经常发生。

构建可抵御这种形式故障事件的系统的方法众所周知。也许我们可以列出六种常见的做法，帮助系统在其中一个组件发生意外故障时自动恢复：集群中的冗余节点、通过增加节点数量和降低每个节点的相对功率来限制故障域、在不同地域部署冗余、自动扩展和自动发现服务，等等。使系统足够强大以应对实例消失的具体方法并不重要。它甚至可能会根据系统的具体情况而有所不同。重要的是，必须这样做，因为由于实例不稳定事件的高频率发生，流媒体服务正面临可用性不足的问题。在某种程度上，Netflix 只是将单点故障效应成倍放大。

Netflix 与其他软件公司不同。它积极主动地推广文化原则，这些原则来自于文化牌中概述的独特管理理念。这体现在多个实践中，对 Netflix 如何解决可用性不足问题产生了重大影响。例如

Netflix 只聘用有相关工作经验的高级工程师。
他们给予所有工程师充分的自由，让他们可以做任何满足工作需要的事情，同时也让他们承担与这些决定相关的任何后果。
最重要的是，Netflix 信任工作的人，让他们决定如何完成工作。
管理层不会告诉个人贡献者（IC）该做什么，而是确保个人贡献者了解需要解决的问题。然后，个人贡献者告诉管理层他们计划如何解决这些问题，然后他们就努力去解决这些问题。 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9798341662919

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

混沌工程

by Casey Rosenthal, Nora Jones

简介：混沌的诞生混沌的诞生

作为代码的管理原则

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.