book

寻求 SRE

Name: 寻求 SRE
Author: David N. Blank-Edelman
ISBN: 9798341663169

by David N. Blank-Edelman

July 2025

Intermediate to advanced

590 pages

6h 21m

Chinese

O'Reilly Media, Inc.

Read now

Unlock full access

导言
由此开始......起源故事声音一路向前！1致谢
I.SRE 的实施
1.SRE 中的情境与控制
2.访谈网站可靠性工程师
面试 101谁参与其中行业与大学偏见漏斗SRE 通道电话筛选现场面试带回家的问题给招聘经理的建议采访自力更生者的最后感想延伸阅读
3.您想组建 SRE 团队吗？
选择 SRE 的正确理由以数据为导向的方法致力于 SRE做出关于 SRE 的决定
4.使用事件指标大规模改进 SRE 5.
良性循环的拯救：如果不衡量...度量标准回顾：如果一个度量标准倒在森林里...替代指标维修债务虚拟维修债务：驱除机器中的幽灵实时仪表板：SRE 的面包和黄油学习：简要说明更多阅读
5.与第三方合作不应该失败
构建、购买还是采用？确定重要性确定利益相关者做出决定承认现实第三方是一等公民当他们倒下时，你也倒下了像服务一样运行黑盒服务级指标、服务级目标和 SLA游戏手册：从试运行到生产结束语
6.如何在没有专门 SRE 团队的情况下应用 SRE 原则
拯救 SRE！(以及他们是如何失败的）人数规模问题嵌入式 SRE您构建，您运行部署平台闭环：使用自己的传呼机生产工程介绍一些实施细节开发人员的工作效率和健康状况与寻呼机的关系利用事后分析解决跨团队的可靠性问题统一的基础设施和工具与自主和创新获得支持结束语延伸阅读
7.没有 SRE 的 SRE：Spotify 案例研究
Tabula Rasa：2006-2007 年前奏主要经验测试版和发布版2008-2009前奏将可扩展性和可靠性放在首位主要经验成功的诅咒2010前奏新的所有权模式正式确定核心服务有福了的部署时段待命和警报催生内部办公室支持解决剩余的首要问题创建侦探主要经验宠物与牛，以及 Agile：2011 年前奏养成坏习惯打破这些坏习惯主要学习内容无法扩展的系统：2012 年前奏体力劳动陷入困境主要学习内容引入 "团队行动"： 2013-2015 年前奏以信任为基础推动范式转变主要经验自主性与一致性：2015-2017 年前奏益处利弊权衡主要经验未来：安全地大规模提速
8.在大型企业中引入 SRE
背景介绍介绍 SRE确定现状确定并教育利益相关者提出业务案例组建 SRE 团队经验教训实施路线图示例结束语更多阅读

9.从系统管理员到 SRE，8963 个字
澄清术语服务水平指标服务级别协议服务级目标为内部组件建立 SLA了解外部依赖性非技术解决方案跟踪可用性水平处理边角案例结论
10.为企业中的 SRE 扫清道路
劳累，SRE 的敌人企业中的辛劳孤岛、队列和票单孤岛阻碍票单驱动的请求队列成本高昂立即行动从精益开始尽可能地减少交接工作用自助服务取代剩余的交接工作自助服务不仅仅是一个按钮自助服务以多种方式帮助 SRE运营即服务错误预算、工作量限制和其他增强人类能力的工具错误预算辛苦程度限制利用现有的 DevOps 热情统一积压工作并保护能力心理安全和人为因素加入这场运动
11.深受各地 DevOps 人员喜爱的 SRE 模式
模式 1：自动化测试在谷歌的诞生模式 2：谷歌的启动和移交准备评审模式 3：创建共享源代码库总结更多阅读和原始资料
12.DevOps 与 SRE：来自社区的声音
背景介绍方法结果答复
13.Facebook 的生产工程
II.近边缘 SRE
14.最初，一片混乱
系统问题复杂性的经济支柱混沌初开安全驾驭复杂性混沌走向大型化形式化高级原则常见问题结论
15.可靠性与隐私的交叉
可靠性与隐私的交叉点隐私工程的总体情况隐私与 SRE：常见方法减少劳累高效、慎重地解决问题关系管理通过宣讲进行早期干预和教育细微差别、差异与权衡结论更多阅读
16.数据库可靠性工程
数据库可靠性工程师的指导原则保护数据规模化自助服务数据库并不特殊数据库可靠性工程文化可恢复性恢复的注意事项恢复策略剖析构件 1：检测构件 2：多样化存储构件 3：多样化工具箱构件 4：测试支持恢复可靠性持续交付：从开发到生产教育与协作协作部署迁移和版本管理影响分析迁移模式支持光盘提出 DBRE 的理由更多阅读
17.数据耐久性工程
复制就是赌注备份复制真实世界的耐久性隔离保护测试保障措施恢复验证零的力量验证覆盖范围监视者自动化漏洞之窗操作员疲劳可靠性结论
18.面向 SRE 的机器学习简介
为什么要在 SRE 中使用机器学习？我的公司为什么以及如何参与其中？机器学习可帮助解决 SRE 的一些问题应用人工智能的觉醒什么是机器学习？什么是学习？从国际象棋到围棋：我们能潜多深？为什么是现在？是什么改变了我们？什么是神经网络？神经元和神经网络我们应该如何以及何时应用神经网络？我们可以使用哪类数据？实用机器学习神经网络的流行库实用机器学习示例成功案例更多阅读我的 GitHub 仓库推荐书籍
三. SRE 最佳实践与技术SRE 最佳实践与技术
19.更好地做文档：将文档融入工程工作流程
定义质量：好文档是什么样的？SRE 文档的功能要求将文档融入工程工作流程谷歌经验：g3doc 和 EngPlay我们学到了什么更好地编写文档：最佳实践为每种文档类型创建模板更好 > 最好：制定切合实际的质量标准要求将文档作为代码审查的一部分无情地修剪文档认可和奖励文档宣传文档的价值更多阅读
20.主动教学
主动学习主动学习实例：不幸之轮主动学习示例：事件管理器（纸牌游戏）主动学习示例：SRE 课堂学习失败的代价高效 SRE 团队的学习习惯生产会议事后总结行动呼吁：摒弃无聊的幻灯片
21.服务级目标的艺术与科学
为什么要设定目标？可用性时间量子交易时间量子交易关于评估 SLO直方图百分位数下降（直方图上升）的原因临别赠言：倒着看 SLO更多阅读
22.SRE 作为一种成功文化
SRE 从何而来？SRE 的关键价值观保持网站正常运行授权团队 "做正确的事将运营视为工程问题通过承诺（服务水平）实现业务成功SRE 的关键赋能功能监控、指标和关键绩效指标事件管理和应急响应能力规划和需求预测性能分析和优化调配、变更管理和速度SRE 的执行阶段第 1 阶段：消防/主动第 2 阶段：守门员第 3 阶段：倡导者/合作伙伴第 4 阶段：催化剂不同阶段的复杂性关注成功的细节延伸阅读
23.SRE 反模式
反模式 1：网站可靠性运营反模式 2：人类盯着屏幕看反模式 3：暴民事件响应反模式 4：根本原因 = 人为错误反模式 5：传递呼叫器反模式 6：魔术烟雾跳跃！反模式 7：警报可靠性工程反模式 8：雇遛狗人照顾宠物反模式 9：减速工程反模式 10：设计窒息点反模式 11：大棒太多，胡萝卜太少反模式 12：推迟生产反模式 13：优化故障避免而非恢复时间（MTTF > MTTR）反模式 14：依赖地狱反模式 15：治理不善反模式 16：考虑不周的 SLOh-Ohs反模式 17：将 API 扔到防火墙外反模式 18：修复运行团队那么，就这样了？
24.不可变基础设施与 SRE
可扩展性、可靠性和性能故障恢复更简单的操作更快的启动时间已知状态放心地持续集成/持续部署安全性多区域操作发布工程构建基本映像部署应用程序缺点结论
25.可编写脚本的负载平衡器
可编写脚本的负载平衡器：新生力量为什么需要可编写脚本的负载平衡器？化难为易敏感路由选择挖掘潜力案例研究：中场休息服务级中间件拯救中间件服务级中间件的 API案例研究WAF/Bot 缓解避免灾难巧妙利用状态案例研究结账队列展望未来和进一步阅读
26.服务网格：微服务的管理者？
准备好摆脱单体了吗？微服务网络的现状服务网格的拯救Sidecar 代理的优势最终实现一致的服务发现可观察性和报警Sidecar 性能影响瘦库和上下文传播配置管理（控制平面与数据平面）服务网格的实践Lyft Envoy 的起源与发展在 Lyft 运营 Envoy服务网格的未来延伸阅读
SRE 的人的方面SRE 的人性化一面
27.SRE 中的心理安全
成功团队的首要指标如何在自己的团队中建立心理安全感延伸阅读
28.SRE 认知工作
简介SRE 人员做什么？我们为什么要关注从业人员的认知？在不确定性和时间压力下做出的关键决策不能照本宣科现代复杂系统中人的表现：主题观察 SRE 围绕事件开展的认知工作每个事件都可能更糟不确定性下的牺牲决策修复功能系统关于复杂系统的特殊知识管理协调成本SRE 是在联合认知系统中工作的认知代理校准问题心智模型事件触发个人重新校准事件是集体重新调整的机会这一切有什么影响？事件将继续发生事件将带来成本事件模式将发生变化事件指向特定的校准问题和位置下一步该怎么做？建立案例库注重使自动化成为 SRE 工作中的团队成员解决校准问题您能做什么？结论参考文献
29.超越职业倦怠
精神障碍的定义多元化对话中缺少精神障碍的讨论理智并非业务要求思念和祈祷不具有可扩展性全栈包容性应用访谈补偿福利入职工作条件工作职责培训晋升离职兼容并包有助于每个人精神障碍资源
30.反对随叫随到：论战
随叫随到的理由首先，不造成伤害与 SRE 的相似之处与 SRE 的区别工程师随叫随到的基本假设随叫随到是急诊医学而非病房医学反驳意见随叫随到的人力成本我们不需要另一个英雄实际解决方案培训确定优先次序提高工作绩效我们需要从根本上改变方法强烈反随叫随到弱反随叫随到两者的结合结论
31.复杂系统的挽歌
计算机系统与人类系统不可分割去相干性和级联故障始终处于部分失效状态新颖性优先级倒置没有人预料到协调的开销您的医疗保健网站就在外面参与其中更多阅读
32.业务活动与社会活动的交叉点
事前、事中、事后制定完美计划组织原则管理危机：当事情破裂时的应对措施书写我们自己的历史：了解发生了什么 Go长尾：将行动转化为变革公司内部的激进主义和变革结论
33.结论
索引

Content preview from 寻求 SRE

第 1 章 SRE 中的情境与控制

本作品已使用人工智能进行翻译。欢迎您提供反馈和意见：translation-feedback@oreilly.com

与微软（前 Netflix）的 Coburn Watson和 David N. Blank-Edelman的讨论

大卫：在我们相识的这段时间里，我们有幸谈论了很多事情。我听您说过的最有趣的事情之一，就是 SRE 的工作方式是专注于提供上下文，而不是使用以控制为中心的流程（这是 SRE 更常见的实践方式）。我们能再深入探讨一下吗？您能解释一下 "情境 "与 "控制 "的含义吗？

科本我认为上下文是指提供额外的、相关的信息，让别人更好地理解特定请求或声明背后的理由。在最高级别上，Netflix 与工程团队共享的可用性相关上下文是其微服务的可用性趋势，以及与预期目标的关系，包括下游依赖关系的可用性。有了这种特定领域的背景，工程团队就有责任（和背景）采取必要措施来提高可用性。

在基于控制的模型中，团队会意识到他们的微服务可用性目标，但如果他们未能实现该目标，可能会采取惩罚措施。这种措施可能会取消他们将代码推送到生产环境的能力。在 Netflix，我们倾向于前一种模式，即共享微服务级可用性的上下文，然后在需要时与团队合作，帮助提高可用性。

我们面临的挑战是确保向团队提供足够的上下文。在 Netflix，当有人做出非理想的运营决策时，首先要问的问题是这个人是否有足够的上下文来做出更好的决策。很多时候，SRE 团队会发现，可用性受到冲击是由于传递给团队的上下文不足造成的，尤其是与可靠性相关的上下文。作为 SRE 团队，我们就是要弥补这些不足，从而提高整体可用性。

在一个非常庞大的组织中，要提供足够的上下文，使人们仅凭上下文就能实现其服务所需的可用性目标，这可能具有挑战性。在这种规模的组织中，你往往不得不依靠更多的流程来实现可用性目标。谷歌的错误预算模式就是一个例子。¹另一种更基于控制的模式适用于人命关天的情况。如果有人经常为飞机自动驾驶系统编写不安全的软件，那么这个人（和公司）可能对主要基于上下文的方法容忍度很低。如果飞机从天上掉下来，他们可不想聚在一起研究如何通过额外的上下文来提高可用性。这取决于每个 SRE 组织决定他们能承担多大的风险，这是找到基于上下文与基于控制的模式之间的分界线的一个因素。

我认为信息和上下文之间是有区别的。在系统监控中，信息可能只是一堆可用性指标，我把它们塞进仪表盘，然后通过电子邮件发送给团队。一般的工程师收到这样的邮件都会置之不理，因为：1）他们负责编写服务的业务逻辑；2）他们缺乏消化和理解以时间序列形式呈现的资源和可用性指标的专业知识。

在 Netflix，我们可以使用成千上万的运行指标。为了支持上下文驱动模型以提高可用性，我们必须将特定领域的知识应用到数据中。这就需要获取信息，并将其加工成能说明可用性的格式。通过应用这种转换，我们就能根据需要将这种上下文推送给团队，这样他们就能衡量给定微服务的可用性是否有所提高。举例来说，一个关键的可用性指标是给定微服务上依赖服务的趋势成功率（从客户端测量并根据原因分解故障率）。

我的团队并不拥有可用性，但我们的工作是随着时间的推移提高可用性。为什么？因为总有人会爆胎。很多时候，团队会主动说："我不太清楚为什么我的可用性会下降，我们能谈谈吗？在调查情况时，可能会发现有人修改了客户端库或更改了超时设置。如前所述，重要的是要从这样一个原则出发，即人们的操作并非疏忽，他们只是缺乏做出更好决定的背景。我们也不要忘记，系统可能过于复杂，避免事故所需的操作门槛过高或没有必要。动态系统中静态超时的调整就是后一种情况的一个例子。 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9798341663169

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

寻求 SRE

by David N. Blank-Edelman

第 1 章 SRE 中的情境与控制

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.