
257
第 16章
防灾规划
撰写人:
Michael Robinson
、
Sean Noonan
、
Alex Bramley
和
Kavita Guliani
由于系统不可避免地会遇到可靠性故障或安全性事件,因此需要做好准备。我们建议
完成开发阶段后,在研发周期结束时进行防灾规划活动。
本章首先阐释灾害风险分析,它是制订灵活的应对计划的必要步骤。然后,介绍组建
事件响应小组的步骤,并就如何在灾难发生前确定可做的准备活动给出一些提示。最
后,深入探讨如何在灾难发生前对组织进行测试,并通过几个例子展示
Google
是如何
为某些特定的灾难场景做准备的。
复杂系统的故障原因可能是简单的,也可能是复杂的。可能是意外服务中断,也可能是恶
意攻击者为获得未授权访问而发起的攻击。尽管这些故障可通过可靠性工程和安全最佳实
践来预测及预防,但长远来看,它们几乎是不可避免的。
防灾规划不是仅仅希望系统能够在灾难或攻击中幸存下来,或希望员工能做出合理的响
应。防灾规划可确保从灾难中恢复的能力不断提升。好消息是,制订全面战略的第一步是
实用且可行的。
16.1
“
灾难
”
的定义
大难临头时你才意识到事情不妙,这其实很罕见。在建筑物被大火完全吞噬之前,你更可
能先看到烟雾或闻到烟味。一些看似不起眼的迹象并不一定马上让人联想到灾难。直到火
势逐渐蔓延,你身处险境,才意识到事态严重。类似地,有时像第
2
章中提到的财务报表
错误这样的小事件,也可能会引发全面的事件响应。