
199
第
9
章
事故响应
作者:
Jennifer Mace, Jelena Oertel,
Stephen Thorne, Arup Chakrabarti (PagerDuty)
和
Jian Ma, Jessie Yang
每个人都希望他们的服务能持续地平稳运行,但我们生活在一个不完美的世界里,
难免会发生故障。当出现了一个不那么寻常、又比较紧急的问题,你就需要多人或
多个团队合作解决,可是具体该怎么做呢?此刻,你既需要对事故做出回应,又需
要试图解决问题。
解决事故意味着减轻它的影响和
/
或将服务恢复到以前的状态。管理事故的意思是高
效地协调相关团队的工作,确保内部和外部的所有需要了解相关情况的各方都能沟
通顺畅。包括
Google
在内的许多科技公司,都在向那些处理过紧急事务的组织学习,
采用并接纳了他们多年来管理事故的工作方式。
事故管理的一大前提是要有条不紊地响应事故。大规模的事故可能会扑朔迷离。如
果我们一切都按照团队事先拟定的处理规则来处置,那就会减少很多混乱。在灾难
降临之前,我们要拟定好如何沟通、如何分配资源的规矩,在事故发生时,你的团
队才能集中精力解决问题。如果你的团队已经进行过了演练,他们对沟通协调的方
式已经很熟悉了,那他们在遇到事故的时候,就不用担心这些事情了。
建立事故响应流程并不是一项艰巨的任务,我们可以给你提供许多现成的有帮助的
资源,包括第一本
SRE
书的第
14
章紧急事故管理。事故响应的基本原理包括如下几
点: