book

Google SRE工作手册

Name: Google SRE工作手册
ISBN: 9787519845858

by Betsy Beyer, Niall Richard Murphy, David K. Rensin, Kent Kawahara, Stephen Thorne

September 2020

Intermediate to advanced

526 pages

8h 23m

Chinese

China Electric Power Press Ltd.

Read now

Unlock full access

封面
封底
对本书的赞誉
扉页
版权页
O'Reilly公司介绍
推荐序I
推荐序II
推荐序III
译者序I

译者序II
目录 (1/4)
目录 (2/4)
目录 (3/4)
目录 (4/4)
序言 I
序言 II
前言
内容约定
使用代码示例
O’Reilly在线学习平台（O’Reilly Online Learning）
意见和疑问
致谢
第1章 SRE与DevOps的关系
SRE是DevOps的一种实现方式
关于DevOps的背景情况
不再各自为政
意外乃兵家常事
变更要小步快跑
工具与文化休戚与共
准确的度量至关重要关于SRE的背景情况
运维痛点也是软件问题
以服务质量目标（SLO）为准绳尽量减少琐事
生产的智慧
确定本年度要自动化的工作故障解决得越快，进度就越快
与开发人员同舟共济（share ownership）
岗位虽不同，工具可统一
比较与对照
因地制宜才能事半功倍
片面、刻板的激励机制会阻碍成功
解铃还须系铃人，勿怨他人
维护可靠性是专业化角色
毋庸斟酌是否，只需推敲时机
尽量在职业发展和物质激励上一视同仁小结
第一部分基础篇
第2章实施SLO
SRE为何需要SLO
入门可靠性目标和错误预算面向SLI的度量
范例系统分析 (1/2)
SLI从规范到实现度量SLI
范例系统分析 (2/2)
使用SLI计算初始的SLO
选择合适的时间窗口
获取利益干系者的认同
建立错误预算策略SLO和错误预算策略的文档仪表板和报表
SLO目标持续改进
改进SLO质量
基于SLO和错误预算的决策
进阶主题
用户旅程建模系统互动重要性分级依赖关系建模SLO松绑实验
小结
第3章 SLO工程案例研究
Evernote的SLO故事Evernote为何采用SRE模型？导入SLO开始旅程
打穿客户与云提供商之间的SLO墙
当前状态
Home Depot的SLO故事 (1/3)
SLO文化项目我们的第一套SLO宣传SLO
Home Depot的SLO故事 (2/3)
自动化VALET数据采集SLO的发扬光大VALET应用于批处理应用VALET应用于测试未来的愿景
Home Depot的SLO故事 (3/3)
结论
小结
第4章监控
监控策略必备特性
速度计算接口
告警
监控数据源范例
管理监控系统
实现配置即代码（Configuration as Code）鼓励一致性倡导松散耦合
度量指标的意图
预期的变更依赖关系饱和度服务流量状况
实施有意图的度量指标
测试告警逻辑
小结
第5章基于SLO的告警
告警设定考量
重大事件告警方法 (1/3)
1：目标错误率≥SLO阈值2：延长告警时间窗口3：延长告警触发前的持续时间4：根据燃烧率发出告警
重大事件告警方法 (2/3)
5：基于多个燃烧率的告警6：基于多个窗口、多个燃烧率的告警
重大事件告警方法 (3/3)
低流量服务和错误预算告警
生成人工流量组合多个服务改变服务和基础设施降低SLO或延长时间窗口
极端的可用性目标
扩大告警范围
小结
第6章消除琐事
什么是琐事？
度量琐事
琐事分类法
业务流程生产中断产品发布迁移工程成本和容量规划不透明架构的故障排查
琐事管理策略 (1/2)
识别和度量琐事工程师撤出琐事系统拒绝琐事使用SLO消减琐事从半自动界面开始提供各种自助服务方法获得管理层和同事的支持大力推广消减琐事从小处着手和改善增加一致性评估自动化的风险自动化响应琐事
琐事管理策略 (2/2)
使用开源和第三方工具使用反馈进行改进
实例研究
案例研究1：利用自动化减少数据中心的琐事 (1/3)
背景问题陈述我们的决策首个设计方案：修复Saturn线卡实施
案例研究1：利用自动化减少数据中心的琐事 (2/3)
第二个迭代的设计：Saturn线卡修复vs Jupiter线卡修复实施
案例研究1：利用自动化减少数据中心的琐事 (3/3)
经验教训
案例研究2：退役文件服务器后端的主目录 (1/2)
背景问题陈述我们的决策设计与实施重要组件
案例研究2：退役文件服务器后端的主目录 (2/2)
经验教训
小结
第7章简单性
度量复杂性
简单性是端到端的，适合由SRE来负责
案例研究1：端到端API的简单性案例研究2：项目生命周期复杂性
回归简单性 (1/2)
案例研究3：简化广告展示系统的蜘蛛网案例研究4：在共享平台上运行数百个微服务
回归简单性 (2/2)
案例研究5：pDNS不再依赖于自身背景
小结
第二部分实践篇
第8章 on-call轮值
回顾第一本SRE书中的“on-call轮值”
Google内外的on-call部署模式案例 (1/2)
Google：组建一个新的团队
Google内外的on-call部署模式案例 (2/2)
Evernote：在云端寻找我们的足迹
实战的实施细节 (1/4)
剖析告警压力
实战的实施细节 (2/4)
实战的实施细节 (3/4)
on-call灵活性
实战的实施细节 (4/4)
on-call团队士气
小结
第9章事故响应
Google的事故管理
事故指挥系统
事故响应中的主要角色
案例分析 (1/4)案例1：软件bug——灯亮着，但家里没人案例2：服务故障——尽可能多地进行缓存
案例分析 (2/4)
案例分析 (3/4)
案例3：停电——闪电不会两次击中同一个地方……吗？案例4：PagerDuty的事故响应
案例分析 (4/4)
把最佳实践付诸实施
事故响应培训前期准备演习
小结
第10章事后总结：从失败中学习
案例分析
糟糕的事后总结 (1/2)
为什么这是一份差劲的事后总结？
糟糕的事后总结 (2/2)
优秀的事后总结 (1/3)
优秀的事后总结 (2/3)
优秀的事后总结 (3/3)
这份事后总结好在哪？
组织激励
树立和加强对事不对人的模式奖励事后总结的成果公开分享事后总结面对事后总结文化的淡化
工具和模板
事后总结模板事后总结的工具
结论
第11章管理负载
Google云的负载均衡AnycastMaglev全球负载均衡系统Google前端（GFE）
GCLB（Google云负载均衡系统）：低延迟
GCLB：高可用性案例研究1：应用GCLB的Pokémon GO
自动缩放
处理不健康的机器使用有状态系统保守地配置设置约束准备终止开关和手动覆写功能避免后端超载避免流量不平衡
管理负载的多种策略
案例研究2：减载引发的攻击
小结
第12章介绍非抽象大系统设计
什么是NALSD？
为什么“非抽象”？
AdWords示例设计过程初始需求单机设计
分布式系统
结论
第13章数据处理流水线
流水线应用
从事件处理/数据转置到有序或结构化数据数据分析机器学习
流水线最佳实践 (1/2)
定义和度量服务质量目标为依赖性故障做好准备创建和维护流水线文档梳理开发生命周期
流水线最佳实践 (2/2)
减少热点和工作负载模式实施自动扩展和资源规划遵循存取控制规则和安全策略
计划升级路径
流水线需求分析和设计 (1/2)你需要什么功能？幂等和两阶段突变检查点代码模式流水线投产准备
流水线需求分析和设计 (2/2)
流水线故障的预防和响应
潜在的故障模式可能的原因
案例研究：Spotify (1/3)
事件交付事件交付系统的设计与架构
案例研究：Spotify (2/3)
客户整合与支持
案例研究：Spotify (3/3)
总结
小结
第14章配置设计及最佳实践
什么是配置配置和可靠性
分离原则和机制
配置原则 (1/2)问用户配置问题问题应该紧贴用户目标必答和可选问题
配置原则 (2/2)
逃避简单
配置机制
配置和生成的数据分离工具的重要性所有权和变更跟踪安全的应用配置变更
小结
第15章配置规范
配置带来的琐事
减少配置带来的琐事
配置系统的关键属性和陷阱
陷阱1：没有把配置作为一种编程语言陷阱2：设计特殊的语言功能陷阱3：在特定领域做了很多优化陷阱4：将“配置评估”与“外部干扰”交织在一起陷阱5：使用现有的通用脚本语言（如Python、Ruby或Lua）
集成配置语言
以特定格式生成配置驾驭多种应用
集成现有应用程序：Kubernetes
Kubernetes提供了什么？Kubernetes配置示例集成配置语言
集成定制应用程序（自开发软件）
有效地运行配置系统
版本控制源代码控制工具测试
何时评估配置
早期：提交JSON时中期：在编译时进行评估后期：在运行时评估
防止滥用配置
小结
第16章金丝雀发布
发布工程原则
平衡发布速率和可靠性
什么是金丝雀发布？
发布工程和金丝雀发布
金丝雀流程的需求
我们的示例配置
用前滚部署还是简单的金丝雀部署
实施金丝雀
将SLO和错误预算的风险降至最低选择金丝雀群体和持续时间规模和持续时间
选择和评估指标
指标应反映出问题指标要代表性和归因性兼具评估前后有风险
用渐进式金丝雀更好地选择指标
依赖关系和隔离
非交互式系统中的金丝雀
监控数据需求
相关概念
人工负载生成
流量准备
小结
第三部分流程
第17章发现运维超负荷并从中恢复
从正常负荷到超负荷
案例研究1：团队规模缩小一半后的工作超负荷
背景
问题描述
我们决定做什么实践经验教训
案例研究2：组织和工作负荷发生变化后的感知超负荷
背景问题陈述我们决定做什么实践
成效
经验教训缓解超负荷的策略识别超负荷的症状减少超负荷并恢复团队健康
小结
第18章 SRE参与模式
服务的生命周期
阶段1：架构与设计阶段2：积极开发阶段3：有限可用性阶段4：一般可用性（GA）阶段5：退出阶段6：放弃
阶段7：终止支持
建立关系 (1/2)沟通业务和生产的优先级识别风险对齐目标
建立关系 (2/2)
制定基本规则规划与执行
维持有效的持续关系
花时间在更好的合作中保持顺畅的沟通进行定期服务审查基本规则开始下滑时要追因根据你的SLO和错误预算调整优先级合理处置错误
在更大的环境里规模化推行SRE
通过一个SRE团队支持多个服务构建多SRE团队的环境SRE团队结构主动顺应变化的环境运行团结的分布式SRE团队
终止关系
案例研究1：Ares
案例研究2：数据分析流水线
小结
第19章 SRE：跨越壁垒
不言而喻的事实可靠性是最重要的特性可靠性以用户为准绳，以监控系统为参考可靠性是你运行一个平台的搭档重要的东西终将成为平台客户不满意时必须放缓脚步
你要与客户一起实践SRE
如何与客户一起实践SRE步骤1：SLO和SLI是你的语言步骤2：审核监控系统、构建共享仪表板步骤3：度量并重新协商步骤4：设计评审流程、进行风险分析步骤5：实践、实践、再实践有思想、有纪律
小结
第20章 SRE团队生命周期
没有SRE的SRE实践
引入SRE角色
寻找第一位SRE安排第一位SRE启动第一位SRE工程师
分布式SRE
第一个SRE团队 (1/3)组建期激荡期
第一个SRE团队 (2/3)
规范期执行期
第一个SRE团队 (3/3)
打造更多SRE团队 (1/2)
服务复杂度SRE 推广地理分隔
打造更多SRE团队 (2/2)
多团队运作的建议实践
角色交换SRE交换（exchange）培训横向项目SRE流动性出差成立协调工程团队卓越生产
SRE预算和招聘
小结
第21章管理SRE的组织变革
SRE拥抱变革
变革管理概述
Lewin的三阶段模型McKinsey的7-S模型Kotter的变革八步法Prosci ADKAR模型基于情感的模型戴明环
这些理论在SRE中的应用
案例研究1：扩展Waze——从见机行事到计划性变革背景消息队列：在保持可靠性的同时更换系统下一轮变革：改善部署过程经验教训
案例研究2：在SRE中采用通用工具 (1/2)
背景问题描述我们的决策设计实施：监控
案例研究2：在SRE中采用通用工具 (2/2)
经验教训
小结
结论
向前看未来属于过去
SRE + <其他学科>
涓涓细流、溪流和洪水
SRE属于我们所有人
感激之情
附录A SLO示例文档
附录B 错误预算策略示例
附录C 事后总结分析结果
作者介绍
封面介绍

Content preview from Google SRE工作手册

监控

｜

•

如果对你的用户应用了速率限制或配额限制，请监控那些由于配额不足而导致的

拒绝请求次数的统计信息。

此数据的图表可以帮助你识别发生在生产系统变更期间的错误量的显著变化。

实施有意图的度量指标

每一个暴露的指标都应该是有意义的。不要只因为那些指标是易于获取的，就把它

们导出来。相反，请考虑如何使用这些指标。指标设计得好坏都会产生一定的影响。

在理想情况下，用于告警的指标数值仅在系统进入故障状态时才发生明显变化，并

且在系统正常运行时不会发生变化。另一方面，用于排错（

debugging

）的指标并没

有这些需求，它们旨在当有关告警触发时，为当时的状况提供相关信息。良好的排

错指标将揭示出那些可能导致系统问题的地方。当你撰写事后调查报告时，请考虑

哪些其他的指标可以加快你的故障排查过程。

测试告警逻辑

在理想情况下，监控和告警的代码应遵循与代码开发相同的测试标准。虽然

Prometheus

的开发人员正在讨论开发用于监控的单元测试，但目前还没有什么系统

采用了这样的做法。

在

Google

，我们使用了一种特定领域语言来测试监控和告警，该语言允许我们创建

仿真的时间序列数据。然后，我们根据派生时间序列中的值或特定的状态触发告警，

并打上特定告警存在性的判定描述标签。

监控和告警通常是一个多步骤的流程，因此需要多个单元测试系列。虽然这个领域

仍然很不发达，但如果你什么时候想实施监控测试了，我们建议采用三层次的方法，

如图

4-1

所示。

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9787519845858

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

Google SRE工作手册

by Betsy Beyer, Niall Richard Murphy, David K. Rensin, Kent Kawahara, Stephen Thorne

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

More than 5,000 organizations count on O’Reilly

Julian F.

Addison B.

Amir M.

Mark W.

You might also like

Python数据分析（第2版）

Google系统架构解密：构建安全可靠的系统

编写整洁的Python代码（第2版）

数据库系统内幕

Publisher Resources