
273
第 17章
危机管理
撰写人:
Matt Linton
、
Nick Soda
和
Gary O
’
Connor
系统运行起来后,即便组织正在受攻击,我们也希望系统能保持正常运作。系统的可
靠性作为标准,可用于衡量组织抵御安全危机的能力,而且可靠性会直接影响用户的
满意度。
本章首先阐明如何发现危机,然后给出详细计划,讲述如何指挥并控制事件,其中包
括深入探讨运营安全和取证。沟通是危机管理的一个关键但往往被忽视的部分。针对
一些与沟通相关的陷阱,本章将给出指导建议,帮助你规避并提供示例和模板。最后,
通过一个危机场景示例来演示事件响应的各个部分是如何结合在一起的。
无论涉及的是可靠性还是安全性,事件响应都至关重要。由于和可靠性中断有关,《
SRE
:
Google
运维解密》的第
14
章
与《
Google SRE
工作手册》的第
9
章讨论了事件响应。为了
应对安全事件,我们使用了与
IMAG
相同的方法。
安全事件是不可避免的。业界有一句俗语,“世界上只有两种类型的公司:一种是知道自
己被入侵了的公司,另一种是不知道的”。安全事件的最终结果取决于组织准备得有多充
分,以及应对得有多好。如上一章所述,要具备成熟的安全处理方式,组织就要建立并践
行
IR
制度。
除了一些常见压力(如确保未经授权的角色不能访问系统,以及确保数据保留在正确的位
置并且不外泄),
IR
团队如今还
面临着全新且困难的挑战。随着安全行业朝着更加透明的
方向发展,以及面向用户开放的需求产生,这种期望对任何一个已习惯于默默无闻的
IR
团队来说,都是一项独特的挑战。此外,一系列法规不断向前推动调查流程,使其必须以 ...