
120
|
第
12
章
在那个阶段,如果团队已经开始把基于
SLO
的告警作为主要告警,我们就不可能再去寻
找暂时的外部解释,而会转去研究如何实际解决这个问题,或者至少回滚最新的部署。
SLO
证明了其检测中断的能力,并给出了适当的反应提示。
这件事改变了我们的文化。一旦
SLO
消耗告警证明了它的价值,我们的工程团队对基
于
SLO
的告警的尊重程度便不亚于传统告警。在对基于
SLO
的告警依赖了一段时间后,
我们的团队越来越满意完全基于
SLO
数据的告警的可靠性。
基于这一点,我们删除了所有传统的监控告警,这些告警是基于过去
5
分钟内流量的错
误百分比、错误的绝对数量或较低等级的系统行为。我们现在依靠基于
SLO
的告警作为
我们的主要防线。
12.5 结论
在本章中,我们高层次地概述了“
SLO
是一种比传统阈值监控更有效的告警策略”。在
软件行业中普遍存在的告警疲劳,是由采用基于潜在原因的传统监控解决方案造成的。
从以下两点出发设计告警规则可以帮助我们有效地解决告警疲劳问题。第一,这些告警
必须由可靠的指标触发,只有在你的用户服务体验处于降级时才能触发。第二,它们必
须是可操作的。任何不符合标准的告警都不再有作用,都应该被删除。
SLO
将事件告警背后的“是什么”和“为什么”做了解耦。专注于基于“疼痛症状”的
告警意味着
SLO
可以成为客户体验的可靠指标。当
SLO
是由基于事件的测量驱动时,
它们的假阳性和假阴性的比率要小得多。因此,基于
SLO
的告警可以成为一种积极的方
式,使告警的破坏性更小,可操作性更强,也更及时。它们可以帮助区分系统性问题和 ...