
294
第 18章
恢复和善后
撰写人:
Alex Perry
、
Gary O
’
Connor
、
Heather
Adkins
和
Nick Soda
为避免服务中断对用户造成影响,系统需要能快速地从安全性和可靠性的相关事件中
恢复。然而,从安全性事件中恢复时,有一个关键的不同点:攻击者。即便系统正在
恢复,一位坚持不懈的攻击者可随时持续访问或重新进入你的环境。
本章中将深入探讨有关从攻击中恢复的知识。设计、实现和维护系统的人员需要了解
它们。从事系统恢复工作的人员通常不是专业安全人员,而是构建受影响的系统并每
天操作它们的人。本章中涉及的教训和示例阐明了如何在恢复过程中阻止攻击者,并
将一探后勤、时间线、计划和恢复的启动阶段。本章中还探讨了关键权衡点,例如何
时中断攻击活动,以及何时允许他们留在系统中以便了解更多有关信息。
如果组织遭遇严重事件,你是否知道如何恢复?谁来进行恢复,他们知道该做什么决定
吗?《
Google SRE
工作手册》的第
17
章
和《
SRE
:
Google
运维解密》的第
9
章讨论了预
防和管理服务中断的实践。其中的许多做法也与安全相关,但从安全攻击中恢复涉及独特
的步骤,尤其是当事件涉及活跃的恶意攻击者时(参见第
2
章)
。出于这个原因,本章一
方面提供了处理多种恢复工作的概述,另一方面重点强调了恢复工程师对安全攻击需要了
解的知识。
正如本书第
8
章和第
9
章中所讨论的那样
,遵循良好设计原则构建的系统可以抵御攻击,
而且很容易恢复。无论系统是单个计算实例、分布式系统还是复杂的多层应用程序,情况
都是如此。完善的体系必须搭配危机管理策略才能促进恢复。如前一章所述 ...