book

寻求 SRE

Name: 寻求 SRE
Author: David N. Blank-Edelman
ISBN: 9798341663169

by David N. Blank-Edelman

July 2025

Intermediate to advanced

590 pages

6h 21m

Chinese

O'Reilly Media, Inc.

Read now

Unlock full access

导言
由此开始......起源故事声音一路向前！1致谢
I.SRE 的实施
1.SRE 中的情境与控制
2.访谈网站可靠性工程师
面试 101谁参与其中行业与大学偏见漏斗SRE 通道电话筛选现场面试带回家的问题给招聘经理的建议采访自力更生者的最后感想延伸阅读
3.您想组建 SRE 团队吗？
选择 SRE 的正确理由以数据为导向的方法致力于 SRE做出关于 SRE 的决定
4.使用事件指标大规模改进 SRE 5.
良性循环的拯救：如果不衡量...度量标准回顾：如果一个度量标准倒在森林里...替代指标维修债务虚拟维修债务：驱除机器中的幽灵实时仪表板：SRE 的面包和黄油学习：简要说明更多阅读
5.与第三方合作不应该失败
构建、购买还是采用？确定重要性确定利益相关者做出决定承认现实第三方是一等公民当他们倒下时，你也倒下了像服务一样运行黑盒服务级指标、服务级目标和 SLA游戏手册：从试运行到生产结束语
6.如何在没有专门 SRE 团队的情况下应用 SRE 原则
拯救 SRE！(以及他们是如何失败的）人数规模问题嵌入式 SRE您构建，您运行部署平台闭环：使用自己的传呼机生产工程介绍一些实施细节开发人员的工作效率和健康状况与寻呼机的关系利用事后分析解决跨团队的可靠性问题统一的基础设施和工具与自主和创新获得支持结束语延伸阅读
7.没有 SRE 的 SRE：Spotify 案例研究
Tabula Rasa：2006-2007 年前奏主要经验测试版和发布版2008-2009前奏将可扩展性和可靠性放在首位主要经验成功的诅咒2010前奏新的所有权模式正式确定核心服务有福了的部署时段待命和警报催生内部办公室支持解决剩余的首要问题创建侦探主要经验宠物与牛，以及 Agile：2011 年前奏养成坏习惯打破这些坏习惯主要学习内容无法扩展的系统：2012 年前奏体力劳动陷入困境主要学习内容引入 "团队行动"： 2013-2015 年前奏以信任为基础推动范式转变主要经验自主性与一致性：2015-2017 年前奏益处利弊权衡主要经验未来：安全地大规模提速
8.在大型企业中引入 SRE
背景介绍介绍 SRE确定现状确定并教育利益相关者提出业务案例组建 SRE 团队经验教训实施路线图示例结束语更多阅读

9.从系统管理员到 SRE，8963 个字
澄清术语服务水平指标服务级别协议服务级目标为内部组件建立 SLA了解外部依赖性非技术解决方案跟踪可用性水平处理边角案例结论
10.为企业中的 SRE 扫清道路
劳累，SRE 的敌人企业中的辛劳孤岛、队列和票单孤岛阻碍票单驱动的请求队列成本高昂立即行动从精益开始尽可能地减少交接工作用自助服务取代剩余的交接工作自助服务不仅仅是一个按钮自助服务以多种方式帮助 SRE运营即服务错误预算、工作量限制和其他增强人类能力的工具错误预算辛苦程度限制利用现有的 DevOps 热情统一积压工作并保护能力心理安全和人为因素加入这场运动
11.深受各地 DevOps 人员喜爱的 SRE 模式
模式 1：自动化测试在谷歌的诞生模式 2：谷歌的启动和移交准备评审模式 3：创建共享源代码库总结更多阅读和原始资料
12.DevOps 与 SRE：来自社区的声音
背景介绍方法结果答复
13.Facebook 的生产工程
II.近边缘 SRE
14.最初，一片混乱
系统问题复杂性的经济支柱混沌初开安全驾驭复杂性混沌走向大型化形式化高级原则常见问题结论
15.可靠性与隐私的交叉
可靠性与隐私的交叉点隐私工程的总体情况隐私与 SRE：常见方法减少劳累高效、慎重地解决问题关系管理通过宣讲进行早期干预和教育细微差别、差异与权衡结论更多阅读
16.数据库可靠性工程
数据库可靠性工程师的指导原则保护数据规模化自助服务数据库并不特殊数据库可靠性工程文化可恢复性恢复的注意事项恢复策略剖析构件 1：检测构件 2：多样化存储构件 3：多样化工具箱构件 4：测试支持恢复可靠性持续交付：从开发到生产教育与协作协作部署迁移和版本管理影响分析迁移模式支持光盘提出 DBRE 的理由更多阅读
17.数据耐久性工程
复制就是赌注备份复制真实世界的耐久性隔离保护测试保障措施恢复验证零的力量验证覆盖范围监视者自动化漏洞之窗操作员疲劳可靠性结论
18.面向 SRE 的机器学习简介
为什么要在 SRE 中使用机器学习？我的公司为什么以及如何参与其中？机器学习可帮助解决 SRE 的一些问题应用人工智能的觉醒什么是机器学习？什么是学习？从国际象棋到围棋：我们能潜多深？为什么是现在？是什么改变了我们？什么是神经网络？神经元和神经网络我们应该如何以及何时应用神经网络？我们可以使用哪类数据？实用机器学习神经网络的流行库实用机器学习示例成功案例更多阅读我的 GitHub 仓库推荐书籍
三. SRE 最佳实践与技术SRE 最佳实践与技术
19.更好地做文档：将文档融入工程工作流程
定义质量：好文档是什么样的？SRE 文档的功能要求将文档融入工程工作流程谷歌经验：g3doc 和 EngPlay我们学到了什么更好地编写文档：最佳实践为每种文档类型创建模板更好 > 最好：制定切合实际的质量标准要求将文档作为代码审查的一部分无情地修剪文档认可和奖励文档宣传文档的价值更多阅读
20.主动教学
主动学习主动学习实例：不幸之轮主动学习示例：事件管理器（纸牌游戏）主动学习示例：SRE 课堂学习失败的代价高效 SRE 团队的学习习惯生产会议事后总结行动呼吁：摒弃无聊的幻灯片
21.服务级目标的艺术与科学
为什么要设定目标？可用性时间量子交易时间量子交易关于评估 SLO直方图百分位数下降（直方图上升）的原因临别赠言：倒着看 SLO更多阅读
22.SRE 作为一种成功文化
SRE 从何而来？SRE 的关键价值观保持网站正常运行授权团队 "做正确的事将运营视为工程问题通过承诺（服务水平）实现业务成功SRE 的关键赋能功能监控、指标和关键绩效指标事件管理和应急响应能力规划和需求预测性能分析和优化调配、变更管理和速度SRE 的执行阶段第 1 阶段：消防/主动第 2 阶段：守门员第 3 阶段：倡导者/合作伙伴第 4 阶段：催化剂不同阶段的复杂性关注成功的细节延伸阅读
23.SRE 反模式
反模式 1：网站可靠性运营反模式 2：人类盯着屏幕看反模式 3：暴民事件响应反模式 4：根本原因 = 人为错误反模式 5：传递呼叫器反模式 6：魔术烟雾跳跃！反模式 7：警报可靠性工程反模式 8：雇遛狗人照顾宠物反模式 9：减速工程反模式 10：设计窒息点反模式 11：大棒太多，胡萝卜太少反模式 12：推迟生产反模式 13：优化故障避免而非恢复时间（MTTF > MTTR）反模式 14：依赖地狱反模式 15：治理不善反模式 16：考虑不周的 SLOh-Ohs反模式 17：将 API 扔到防火墙外反模式 18：修复运行团队那么，就这样了？
24.不可变基础设施与 SRE
可扩展性、可靠性和性能故障恢复更简单的操作更快的启动时间已知状态放心地持续集成/持续部署安全性多区域操作发布工程构建基本映像部署应用程序缺点结论
25.可编写脚本的负载平衡器
可编写脚本的负载平衡器：新生力量为什么需要可编写脚本的负载平衡器？化难为易敏感路由选择挖掘潜力案例研究：中场休息服务级中间件拯救中间件服务级中间件的 API案例研究WAF/Bot 缓解避免灾难巧妙利用状态案例研究结账队列展望未来和进一步阅读
26.服务网格：微服务的管理者？
准备好摆脱单体了吗？微服务网络的现状服务网格的拯救Sidecar 代理的优势最终实现一致的服务发现可观察性和报警Sidecar 性能影响瘦库和上下文传播配置管理（控制平面与数据平面）服务网格的实践Lyft Envoy 的起源与发展在 Lyft 运营 Envoy服务网格的未来延伸阅读
SRE 的人的方面SRE 的人性化一面
27.SRE 中的心理安全
成功团队的首要指标如何在自己的团队中建立心理安全感延伸阅读
28.SRE 认知工作
简介SRE 人员做什么？我们为什么要关注从业人员的认知？在不确定性和时间压力下做出的关键决策不能照本宣科现代复杂系统中人的表现：主题观察 SRE 围绕事件开展的认知工作每个事件都可能更糟不确定性下的牺牲决策修复功能系统关于复杂系统的特殊知识管理协调成本SRE 是在联合认知系统中工作的认知代理校准问题心智模型事件触发个人重新校准事件是集体重新调整的机会这一切有什么影响？事件将继续发生事件将带来成本事件模式将发生变化事件指向特定的校准问题和位置下一步该怎么做？建立案例库注重使自动化成为 SRE 工作中的团队成员解决校准问题您能做什么？结论参考文献
29.超越职业倦怠
精神障碍的定义多元化对话中缺少精神障碍的讨论理智并非业务要求思念和祈祷不具有可扩展性全栈包容性应用访谈补偿福利入职工作条件工作职责培训晋升离职兼容并包有助于每个人精神障碍资源
30.反对随叫随到：论战
随叫随到的理由首先，不造成伤害与 SRE 的相似之处与 SRE 的区别工程师随叫随到的基本假设随叫随到是急诊医学而非病房医学反驳意见随叫随到的人力成本我们不需要另一个英雄实际解决方案培训确定优先次序提高工作绩效我们需要从根本上改变方法强烈反随叫随到弱反随叫随到两者的结合结论
31.复杂系统的挽歌
计算机系统与人类系统不可分割去相干性和级联故障始终处于部分失效状态新颖性优先级倒置没有人预料到协调的开销您的医疗保健网站就在外面参与其中更多阅读
32.业务活动与社会活动的交叉点
事前、事中、事后制定完美计划组织原则管理危机：当事情破裂时的应对措施书写我们自己的历史：了解发生了什么 Go长尾：将行动转化为变革公司内部的激进主义和变革结论
33.结论
索引

Content preview from 寻求 SRE

第 7 章没有 SRE 的 SRE：Spotify 案例研究

本作品已使用人工智能进行翻译。欢迎您提供反馈和意见：translation-feedback@oreilly.com

Daniel Prata Almeida、Saunak Jai Chakrabarti、Jeff Eklund、David Poblador i Garcia、Niklas Gustavsson、Mattias Jansson、Drew Michel、Lynn Root、Johannes Russek、Spotify

许多人对 Spotify 实际上没有 SRE 组织感到惊讶。我们没有中央 SRE 团队，甚至没有 SRE 专属团队，然而我们长期以来的扩展能力一直取决于我们在一切工作中应用 SRE 原则的能力。鉴于这种不寻常的设置，其他公司纷纷向我们了解我们的模式（"Ops-in-Squads"）是如何运作的。有些公司也采用了类似的模式。让我们向您介绍一下我们是如何采用这种模式的，以及这种模式是如何为我们工作的，以便您了解类似的想法是否适合您。

首先，我们需要介绍一下我们的工程文化：在 Spotify，我们组织成小型自治团队。我们的理念是，每个团队从头到尾都拥有某项功能或用户体验。在实践中，这意味着一个工程团队由一组跨职能的开发人员组成--从设计师到后端开发人员再到数据科学家--共同致力于 Spotify 的各种客户端、后端服务和数据管道。

为了支持我们的功能团队，我们创建了以基础设施为中心的小组。这些基础架构团队反过来也变成了小型、跨职能和自主的团队，以提供自助式基础架构产品。其中的一些例子包括持续集成、部署、监控、软件框架和指南。Spotify 的绝大多数 SRE 都在这些团队中工作，他们利用自己的技能和经验使生产环境可靠、可扩展性强，并且便于我们的功能团队使用。

然而，SRE 的某些关注点是跨领域的，只能从中央角度解决。这包括大型连环故障造成的中断、教授部署、事件管理或事后分析的最佳实践。我们的 SRE 将自己组织在全公司的工作组中，但这些工作组并不完全是拥有 SRE 头衔的工程师。例如，在我们的中央升级待命轮换（内部称为 "事件经理待命 "或 "IMOC"）中，只有一半的工程师是 SRE，其余的都是担任各种角色的工程师。

我们为什么要这样组织自己？这样做的好处是什么？在下面的章节中，我们将讨论 Spotify 是如何将 SRE 组织从一家在斯德哥尔摩公寓中安装服务器的小型初创公司发展成为今天的大型全球性公司的。我们将重点介绍 Spotify 如何通过提供无摩擦的开发环境以及信任和知识共享的文化，使所有工程师都将运营视为默认工作。

Tabula Rasa：2006-2007 年

前奏

我们将谈一谈我们是如何开始在早期历史中纳入运营重点的，其中包括：

默认运营: 从一开始就无意中引入运营重点，这影响了我们的工程文化，并在未来证明是有益的。
学会在失败中迭代器: 虽然我们在运营方面有先见之明，但我们也不免会陷入初创公司常见的陷阱。

关于 Spotify 运营和 SRE 的故事，其中一个令人好奇的地方是，这家六人公司最初的人员配置中如何包括一名运营工程师。

许多初创公司都是在第一批客户开始使用服务后才增加一名运营人员。然后，这位不幸的运营工程师可能会发现，后端由于脚本没有记录、服务在屏幕会话中运行、缺乏备份、单点故障以及层层未完成的良好愿望而步履维艰。从这一点上看，运营工程师可能会一直处于追赶状态，既要努力灭火，又要跟上新的发展。 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9798341663169

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

寻求 SRE

by David N. Blank-Edelman

第 7 章没有 SRE 的 SRE：Spotify 案例研究

Tabula Rasa：2006-2007 年

前奏

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.