
基于
SLO
的告警
|
97
精确率(
precision
)
在所有检测到的事件中,确实是重大事件的比例是多少。如果每个告警都对应一
个重大事件,那精确率就是
100%
。请注意,告警可能会在低流量时段对非重大
事件变得特别敏感(详见本章“低流量服务和错误预算告警”一节)。
查全率(
recall
)
在所有客观存在的重大事件中,被我们检测到了的比例是多少。如果对每一个重
大事件都发出了告警,那么查全率就是
100%
。
检测用时
在各种条件下,发出告警通知需要多长时间。较长的检测用时会对错误预算产生
负面影响。
重置用时
在问题得到解决以后,告警还会持续多长时间。较长的重置时间可能导致混淆或
忽略问题。
重大事件告警方法
设定基于
SLO
的告警规则可能是很复杂的事情。在这里,我们提出了六种方法用于
设置重要问题的告警。我们的目的是提高质量,尽可能保证同时控制好精确率、查
全率、检测用时、重置用时这四个指标。以下的每种方法都解决了不同的问题,有
的方法最终会同时解决多个问题。如果前三个方式都不太适用的的话,继续尝试后
面的三个更适用的告警策略,第六种方法是最可行和我们最强烈推荐的方式。第一
种方法的实施简单,但是实效不足,然而最优化的方法应该是提供了一种完整的解
决方案,无论在长期还是短期来看,它都能有效地落实
SLO
。
为了便于讨论,“错误预算”和“错误率”
在这里适用于所有
SLI
,而不仅仅用于
名称中包含“错误”二字的
SLI
。在第
2
章的“面向
SLI
的度量”一节里,我们建议
使用
SLI
来刻画正常事件占所有事件的比例。错误预算指的是允许发生的问题事件 ...