
389
第
17
章
发现运维超负荷并从中恢复
作者:
Maria-Hendrike Peetz, Luis Quesada Torres, Marilia Melo
和
Diane Bates
当
SRE
团队平稳运行时,团队成员应该可以感觉到自己能轻松地处理所有工作。他
们应当不仅能从容地处理工单,而且仍有时间花在长期的项目上。这些长期的项目
一旦完成,管理服务将会变得更加容易。
但是有些情况会影响团队的工作目标。团队成员可能因长期生病请假,也可能打算
转换其他新的团队;组织可能会给
SRE
分配新的生产项目;对服务或更大系统的变
更可能会带来新的技术挑战。随着工作量的增加,团队成员开始在处理工单和告警
上花费更长的时间,而用在工程工作上的时间就变少了。整个团队在努力工作的同时,
开始感到压力和沮丧,而无法感觉到自己正在取得的进步。反过来,压力会使人们
犯更多错误,从而影响可靠性,并且最后影响到最终用户。简而言之,团队失去了
调控日常工作和有效管理服务的能力。
此时,团队需要找到一个摆脱这种超负荷状态的方法。他们需要重新平衡工作量,
以便团队成员可以专注于必需的工程工作。
运维负荷(或运维工作负荷)是一个术语,用于描述正在进行的运维任务,通过这
些任务,系统和服务得以在最佳性能下持续运行。有三种不同类型的运维负荷:告警、
工单和当前手头的运维职责。告警通常需要予以立即关注,与紧急问题相关的工单
也会有紧迫的期限。告警和紧急工单都会中断
SRE
开发支撑团队运维职责的工程项