
124
|
第
13
章
13.3 预见性地创建预测消耗告警
选择时间范围后,你可以立即设置一个触发器对你所关心的错误预算条件触发告警。最
容易设置的告警是零级告警(在你的整个错误预算用完时触发)。
当错误预算用尽时会发生什么
当错误预算从正错误预算转变为负错误预算时,保障服务稳定性的优先级便要比上
线新功能高得多。准确叙述错误预算用尽后会发生什么则超出了本章的讨论范围,
但是从团队角度出发,预防错误预算用尽是第一要义。
将错误预算超支转化为直接的行动(比如暂停生产中的功能使用)。通过 SLO 模
型创建激励措施,以最大限度减少预算用尽后危及服务稳定性的行为。要深入分
析工程实践在这些情况下应如何改变以及如何设置适当的策略,建议可以阅读
Implementing Service Level Objectives
一书。
一个应对严峻问题的告警往往是需要提前一步通知到团队的。如果可以预见到错误预算
即将被用完,那么就有机会提前采取行动修复它,而不是任其发生。为了提高可靠性,
尽早修复最严重的错误源头是非常有必要的,优先级甚至高于任何新功能的发布。在可
持续地保障团队士气和稳定性方面,计划和预测是比英雄主义更好的方法。
因此,一个解决方案是追踪你的错误预算消耗率,并观察有可能消耗整个预算的急剧变
化。至少有两种模型可以用来触发高于零水平标志的消耗告警。第一种是选择一个非零
的阈值来发出告警。例如,你可以在你的剩余错误预算降到
30%
以下时发出告警,如
图
13-3
所示。
日期
错误预算剩余
30% 处发出错误预算消耗
(
简化的
)
告警