
169
第
8
章
on-call
轮值
作者:
Ollie Cook, Sara Smollett, Andrea Spadaccini,
Cara Donnelly, Jian Ma, Garrett Plasky (Evernote)
和
Stephen Thorne, Jessie Yang
on-call
意味着我们要在一段时间内保持待命状态,在这段特定的时间内,根据生产
事故的紧急程度做出响应。
SRE
通常需要参与
on-call
轮值。在
on-call
轮值期间,
SRE
会根据需要诊断、缓解、修复事故或提升事故的处理等级。此外,
SRE
还定期
负责处理非紧急的生产事件。
在
Google
,参与
on-call
是
SRE
的一个基本特征。
SRE
团队的工作是缓解事故、修
复生产问题,以及自动化运维任务。由于我们大多数的
SRE
团队还不能完全自动的
执行所有的运维任务,因此一旦事故升级,就需要交由人工处理,也就是
on-call
工
程师。根据所支持系统的重要程度或系统目前的开发状态,并非所有
SRE
团队都可
能参与
on-call
。根据我们的经验,绝大多数
SRE
团队都会安排
on-call
轮值。
on-call
是一个庞大而复杂的话题,它的限制因素很多,试错空间也很有限。我们在
第一本
SRE
书的第
11
章“
on-call
轮值”中已经探讨了这一主题。在这里将介绍的是,
我们所收到的关于那一章的具体反馈和问题。其中包括:
•
我们不是
Google
,我们的规模小太多了。我们没有这么多人参与轮值,我们也
没有那么多分布在多个时区的办公室。你们在第一本书中所描述的情况不适用于 ...