book

寻求 SRE

Name: 寻求 SRE
Author: David N. Blank-Edelman
ISBN: 9798341663169

by David N. Blank-Edelman

July 2025

Intermediate to advanced

590 pages

6h 21m

Chinese

O'Reilly Media, Inc.

Read now

Unlock full access

导言
由此开始......起源故事声音一路向前！1致谢
I.SRE 的实施
1.SRE 中的情境与控制
2.访谈网站可靠性工程师
面试 101谁参与其中行业与大学偏见漏斗SRE 通道电话筛选现场面试带回家的问题给招聘经理的建议采访自力更生者的最后感想延伸阅读
3.您想组建 SRE 团队吗？
选择 SRE 的正确理由以数据为导向的方法致力于 SRE做出关于 SRE 的决定
4.使用事件指标大规模改进 SRE 5.
良性循环的拯救：如果不衡量...度量标准回顾：如果一个度量标准倒在森林里...替代指标维修债务虚拟维修债务：驱除机器中的幽灵实时仪表板：SRE 的面包和黄油学习：简要说明更多阅读
5.与第三方合作不应该失败
构建、购买还是采用？确定重要性确定利益相关者做出决定承认现实第三方是一等公民当他们倒下时，你也倒下了像服务一样运行黑盒服务级指标、服务级目标和 SLA游戏手册：从试运行到生产结束语
6.如何在没有专门 SRE 团队的情况下应用 SRE 原则
拯救 SRE！(以及他们是如何失败的）人数规模问题嵌入式 SRE您构建，您运行部署平台闭环：使用自己的传呼机生产工程介绍一些实施细节开发人员的工作效率和健康状况与寻呼机的关系利用事后分析解决跨团队的可靠性问题统一的基础设施和工具与自主和创新获得支持结束语延伸阅读
7.没有 SRE 的 SRE：Spotify 案例研究
Tabula Rasa：2006-2007 年前奏主要经验测试版和发布版2008-2009前奏将可扩展性和可靠性放在首位主要经验成功的诅咒2010前奏新的所有权模式正式确定核心服务有福了的部署时段待命和警报催生内部办公室支持解决剩余的首要问题创建侦探主要经验宠物与牛，以及 Agile：2011 年前奏养成坏习惯打破这些坏习惯主要学习内容无法扩展的系统：2012 年前奏体力劳动陷入困境主要学习内容引入 "团队行动"： 2013-2015 年前奏以信任为基础推动范式转变主要经验自主性与一致性：2015-2017 年前奏益处利弊权衡主要经验未来：安全地大规模提速
8.在大型企业中引入 SRE
背景介绍介绍 SRE确定现状确定并教育利益相关者提出业务案例组建 SRE 团队经验教训实施路线图示例结束语更多阅读

9.从系统管理员到 SRE，8963 个字
澄清术语服务水平指标服务级别协议服务级目标为内部组件建立 SLA了解外部依赖性非技术解决方案跟踪可用性水平处理边角案例结论
10.为企业中的 SRE 扫清道路
劳累，SRE 的敌人企业中的辛劳孤岛、队列和票单孤岛阻碍票单驱动的请求队列成本高昂立即行动从精益开始尽可能地减少交接工作用自助服务取代剩余的交接工作自助服务不仅仅是一个按钮自助服务以多种方式帮助 SRE运营即服务错误预算、工作量限制和其他增强人类能力的工具错误预算辛苦程度限制利用现有的 DevOps 热情统一积压工作并保护能力心理安全和人为因素加入这场运动
11.深受各地 DevOps 人员喜爱的 SRE 模式
模式 1：自动化测试在谷歌的诞生模式 2：谷歌的启动和移交准备评审模式 3：创建共享源代码库总结更多阅读和原始资料
12.DevOps 与 SRE：来自社区的声音
背景介绍方法结果答复
13.Facebook 的生产工程
II.近边缘 SRE
14.最初，一片混乱
系统问题复杂性的经济支柱混沌初开安全驾驭复杂性混沌走向大型化形式化高级原则常见问题结论
15.可靠性与隐私的交叉
可靠性与隐私的交叉点隐私工程的总体情况隐私与 SRE：常见方法减少劳累高效、慎重地解决问题关系管理通过宣讲进行早期干预和教育细微差别、差异与权衡结论更多阅读
16.数据库可靠性工程
数据库可靠性工程师的指导原则保护数据规模化自助服务数据库并不特殊数据库可靠性工程文化可恢复性恢复的注意事项恢复策略剖析构件 1：检测构件 2：多样化存储构件 3：多样化工具箱构件 4：测试支持恢复可靠性持续交付：从开发到生产教育与协作协作部署迁移和版本管理影响分析迁移模式支持光盘提出 DBRE 的理由更多阅读
17.数据耐久性工程
复制就是赌注备份复制真实世界的耐久性隔离保护测试保障措施恢复验证零的力量验证覆盖范围监视者自动化漏洞之窗操作员疲劳可靠性结论
18.面向 SRE 的机器学习简介
为什么要在 SRE 中使用机器学习？我的公司为什么以及如何参与其中？机器学习可帮助解决 SRE 的一些问题应用人工智能的觉醒什么是机器学习？什么是学习？从国际象棋到围棋：我们能潜多深？为什么是现在？是什么改变了我们？什么是神经网络？神经元和神经网络我们应该如何以及何时应用神经网络？我们可以使用哪类数据？实用机器学习神经网络的流行库实用机器学习示例成功案例更多阅读我的 GitHub 仓库推荐书籍
三. SRE 最佳实践与技术SRE 最佳实践与技术
19.更好地做文档：将文档融入工程工作流程
定义质量：好文档是什么样的？SRE 文档的功能要求将文档融入工程工作流程谷歌经验：g3doc 和 EngPlay我们学到了什么更好地编写文档：最佳实践为每种文档类型创建模板更好 > 最好：制定切合实际的质量标准要求将文档作为代码审查的一部分无情地修剪文档认可和奖励文档宣传文档的价值更多阅读
20.主动教学
主动学习主动学习实例：不幸之轮主动学习示例：事件管理器（纸牌游戏）主动学习示例：SRE 课堂学习失败的代价高效 SRE 团队的学习习惯生产会议事后总结行动呼吁：摒弃无聊的幻灯片
21.服务级目标的艺术与科学
为什么要设定目标？可用性时间量子交易时间量子交易关于评估 SLO直方图百分位数下降（直方图上升）的原因临别赠言：倒着看 SLO更多阅读
22.SRE 作为一种成功文化
SRE 从何而来？SRE 的关键价值观保持网站正常运行授权团队 "做正确的事将运营视为工程问题通过承诺（服务水平）实现业务成功SRE 的关键赋能功能监控、指标和关键绩效指标事件管理和应急响应能力规划和需求预测性能分析和优化调配、变更管理和速度SRE 的执行阶段第 1 阶段：消防/主动第 2 阶段：守门员第 3 阶段：倡导者/合作伙伴第 4 阶段：催化剂不同阶段的复杂性关注成功的细节延伸阅读
23.SRE 反模式
反模式 1：网站可靠性运营反模式 2：人类盯着屏幕看反模式 3：暴民事件响应反模式 4：根本原因 = 人为错误反模式 5：传递呼叫器反模式 6：魔术烟雾跳跃！反模式 7：警报可靠性工程反模式 8：雇遛狗人照顾宠物反模式 9：减速工程反模式 10：设计窒息点反模式 11：大棒太多，胡萝卜太少反模式 12：推迟生产反模式 13：优化故障避免而非恢复时间（MTTF > MTTR）反模式 14：依赖地狱反模式 15：治理不善反模式 16：考虑不周的 SLOh-Ohs反模式 17：将 API 扔到防火墙外反模式 18：修复运行团队那么，就这样了？
24.不可变基础设施与 SRE
可扩展性、可靠性和性能故障恢复更简单的操作更快的启动时间已知状态放心地持续集成/持续部署安全性多区域操作发布工程构建基本映像部署应用程序缺点结论
25.可编写脚本的负载平衡器
可编写脚本的负载平衡器：新生力量为什么需要可编写脚本的负载平衡器？化难为易敏感路由选择挖掘潜力案例研究：中场休息服务级中间件拯救中间件服务级中间件的 API案例研究WAF/Bot 缓解避免灾难巧妙利用状态案例研究结账队列展望未来和进一步阅读
26.服务网格：微服务的管理者？
准备好摆脱单体了吗？微服务网络的现状服务网格的拯救Sidecar 代理的优势最终实现一致的服务发现可观察性和报警Sidecar 性能影响瘦库和上下文传播配置管理（控制平面与数据平面）服务网格的实践Lyft Envoy 的起源与发展在 Lyft 运营 Envoy服务网格的未来延伸阅读
SRE 的人的方面SRE 的人性化一面
27.SRE 中的心理安全
成功团队的首要指标如何在自己的团队中建立心理安全感延伸阅读
28.SRE 认知工作
简介SRE 人员做什么？我们为什么要关注从业人员的认知？在不确定性和时间压力下做出的关键决策不能照本宣科现代复杂系统中人的表现：主题观察 SRE 围绕事件开展的认知工作每个事件都可能更糟不确定性下的牺牲决策修复功能系统关于复杂系统的特殊知识管理协调成本SRE 是在联合认知系统中工作的认知代理校准问题心智模型事件触发个人重新校准事件是集体重新调整的机会这一切有什么影响？事件将继续发生事件将带来成本事件模式将发生变化事件指向特定的校准问题和位置下一步该怎么做？建立案例库注重使自动化成为 SRE 工作中的团队成员解决校准问题您能做什么？结论参考文献
29.超越职业倦怠
精神障碍的定义多元化对话中缺少精神障碍的讨论理智并非业务要求思念和祈祷不具有可扩展性全栈包容性应用访谈补偿福利入职工作条件工作职责培训晋升离职兼容并包有助于每个人精神障碍资源
30.反对随叫随到：论战
随叫随到的理由首先，不造成伤害与 SRE 的相似之处与 SRE 的区别工程师随叫随到的基本假设随叫随到是急诊医学而非病房医学反驳意见随叫随到的人力成本我们不需要另一个英雄实际解决方案培训确定优先次序提高工作绩效我们需要从根本上改变方法强烈反随叫随到弱反随叫随到两者的结合结论
31.复杂系统的挽歌
计算机系统与人类系统不可分割去相干性和级联故障始终处于部分失效状态新颖性优先级倒置没有人预料到协调的开销您的医疗保健网站就在外面参与其中更多阅读
32.业务活动与社会活动的交叉点
事前、事中、事后制定完美计划组织原则管理危机：当事情破裂时的应对措施书写我们自己的历史：了解发生了什么 Go长尾：将行动转化为变革公司内部的激进主义和变革结论
33.结论
索引

Content preview from 寻求 SRE

第 4 章. 利用事件度量改进规模化 SRE

本作品已使用人工智能进行翻译。欢迎您提供反馈和意见：translation-feedback@oreilly.com

Martin Check，微软

无论您的服务是希望增加下一打用户还是下一个十亿用户，您迟早都要讨论在服务扩展的过程中需要在哪些方面投入多少资金以保持可靠性。在本章中，我们将通过一个来自 Microsoft Azure 的案例研究，介绍如何使用事件指标来确定投资重点。它应用了我们在各种服务可靠性方面学到的经验，从初创公司到企业服务，一直到云规模。Azure 是一个特别好的案例研究，因为其巨大的规模、增长和产品的多样性放大了典型的可靠性主题。我们将展示如何利用数据和一些创新技术来分析和报告这些主题，从而帮助我们推动改进。

良性循环的拯救：如果你不测量它...

与任何问题管理工作一样，我们首先要查看数据。然而，当我们去做这件事时，却发现我们有成千上万的数据源、服务遥测、事件管理指标、部署指标，等等。事实上，我们有如此多的数据源需要查看，以至于在决定查看哪些数据以及以何种顺序解决问题时变得非常棘手。在研究了业内最佳实践并咨询了专家之后，我们最终确定了一个称为良性循环的系统（如图 4-1 所示），作为我们改进工作的基础。良性循环创建了一个框架，我们可以利用这个框架，通过检测故障的速度来了解监控的有效性，通过衡量根本原因分析（RCA）流程和修复情况来了解从故障中吸取教训的效果，以及修复错误的速度。然后，我们可以查看我们的代码质量和部署速度，以了解我们完成整个周期的速度有多快。

作为 SRE，我们知道每一分钟的停机时间都很重要，因此我们首先要找到关键指标，以了解我们在响应和修复事件方面的效率。这意味着我们首先必须定义具有代表性的指标，然后就定义和开始/结束时间达成一致。让我们深入了解一下我们选择的指标，以及为什么我们认为它们如此重要：

检测时间 (TTD)

检测时间是指从影响开始到操作员看到事件发生的时间。我们在客户首次发现影响时开始计数，即使我们的监控没有检测到影响。这通常与违反服务级别协议（SLA）的时间相同。

信不信由你，TTD 是需要手动采取缓解措施的事件的最重要指标。这一指标决定了监控的质量和准确性。如果不了解客户的痛苦，就无法开始恢复过程，当然也就无法启动自动化响应或缓解。也许更重要的是，您无法向客户传达您知道问题所在并正在努力解决的信息。TTD 所面临的挑战是如何平衡监控灵敏度，以便快速、准确地发现所有客户问题，同时又不会因为不影响客户的问题而不断打断工程师的工作。

参与时间 (TTE)

这是指从检测到适当的工程师参与的时间。这在事件发生期间可能很难确定，有时甚至在事件发生后也很难确定。在战争的迷雾中很难回过头来看单个工程师的情况，因此可以用第一个到达现场的工程师来估算。这个指标对于考察我们如何有效地调动响应非常重要，它既包括分流时间（确定严重程度和所有权），也包括升级和调动响应人员的时间。有很多方法可以改进这一点；自动升级和寻呼系统、对值班的明确预期、随叫随到的支持模式，甚至改进的监控都有助于确保警报在第一时间传递给正确的值班工程师。

修复时间 (TTF)

这是响应者缓解问题所需的时间。

如图 4-2 所示，所有这些指标加在一起（TTD + TTE + ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9798341663169

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

寻求 SRE

by David N. Blank-Edelman

第 4 章. 利用事件度量改进规模化 SRE

良性循环的拯救：如果你不测量它...

图 4-1. 良性循环

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.