
400
|
第
17
章
当前的生产标准。例如,某些服务在高负载下的运行状况很差,而它们的负载在过
去几年中显著增加。某些服务需要根据其后端服务的策略变更,并予以更新。其他
服务几年来一直没有更新。
成效
在我们第一次集思广益会议之后的几个月中,成效开始浮出水面:
on-call
轮值变得
更安静了,并且我们的团队以小组的形式快速有效地协作处理了一个困难的事故。
稍后,新的团队成员就位了。当我们在圆桌会议上讨论心理安全性时,新成员表示
他们无法想象团队曾经遇到过此类问题。事实上,在他们眼中,我们的团队就是一
个温暖、安全的工作场所。在当初的高层介入大约一年后,超负荷的情况就很少了,
匿名调查显示,团队成员现在认为团队是有成效且安全的。
经验教训
改变工作环境可能会对团队中的人员产生心理影响,毕竟,你的队友不是机器。你
需要注意团队的压力水平,以便人们开始互相信任,可以一起工作。否则,团队可
能会进入一个恶性循环而导致产生压力,这反过来又会阻止你解决超负荷问题。
事实上,感知上的超负荷也是超负荷,并且对团队的影响与其他因素导致的工作超
负荷一样大。在我们的案例中,我们在悉尼的姊妹团队没有遇到相同的问题,与往
年相比,我们遇到的告警数量实际上没有太大变化。取而代之的是,失去了两名团
队成员,增加了认知负担,增加了工单噪音以及新的为期三天的
SLO
,导致团队感
到超负荷。最后,客观超负荷和感知上的超负荷之间的区别并不重要:少数团队成
员的感知上的超负荷会很快导致整个团队的超负荷。
缓解超负荷的策略
有时,外部视角可以很容易地确定团队何时超负荷 ...