
121
第 13 章
处理和调试基于 SLO 的告警
上一章,我们介绍了
SLO
和一种基于
SLO
的监控方法,该方法可以更有效地发出告警。
本章将仔细研究如何通过应用可观测性数据让这些告警既可操作又可调试。使用传统监
控数据或指标的
SLO
所产生的告警是不可操作的,因为它们不能指导如何解决根本问
题。此外,使用
SLO
的可观测性数据使它们更精确且更易于调试。
虽然独立于可观测性,但使用
SLO
驱动告警可能是一种有效的方式,可以使告警的噪声
更小、更可操作。
SLI
可以定义为以直接符合业务目标的方式衡量服务的客户体验。错
误预算在业务利益相关者和工程团队之间设定了明确的期望。错误预算“燃烧”(消耗)
告警使团队能够确保客户满意度与业务目标保持高度一致,并启动对生产问题的适当响
应,而不会出现基于症状告警的世界中存在的那种杂音,在这种情况下,过度告警风暴
是常态。
在本章中,我们将研究错误预算所扮演的角色以及在使用
SLO
时可用于触发告警的机
制。我们将了解
SLO
错误预算是什么以及它是如何工作的,哪些计算方法可用于预测你
的
SLO
错误预算将用尽,以及为什么有必要使用基于事件的可观测性数据而不是基于时
间的指标来进行可靠的计算。
13.1 在错误预算消耗完之前发出告警
错误预算表示你的企业愿意容忍的最大系统不可用性。如果你的
SLO
是为了确保
99.9%
的请求成功,那么基于时间的计算表明你的系统在一个标准年内不可用的时间不超过
8
小时
45
分
57
秒(或
43
分
50
秒每月)。如上一章所示,基于事件的计算根据资格标准
研究每个单独的事件,并保持“好”事件与“坏” ...