
111
第 12 章
使用 SLO 来提高可靠性
虽然可观测性和传统的监控可以共存,但是可观测性为监控带来了更复杂且具有补
充性的使用潜力。接下来的两章将向你展示如何通过可观测性和
SLO
(
Service-Level
Objective
,服务级别目标)提高系统可靠性。
在本章中,你将了解到传统基于阈值的监控方法给你的团队带来的常见问题、分布式系
统如何加剧这些问题以及如何使用基于
SLO
的监控方法来解决这些问题。我们会使用一
个真实的案例来展示如何使用
SLO
来代替传统的基于阈值触发的告警方式。在第
13
章,
我们将研究可观测性如何使你的基于
SLO
的告警具备可操作性以及更易于调试。让我们
首先了解监控和告警的作用以及以前对它们的做法。
12.1 传统监控方法造成危险的告警疲劳
在基于监控的方法中,告警往往测量最容易测量的东西。指标被用来追踪简单的系统状
态,这些状态可能表明服务的底层进程可能运行不佳,或者可能是一个问题相关的预测
性指标。这些状态可能会触发告警,例如,
CPU
占用超过
80%
、内存可用率低于
10%
、
磁盘空间快要满了、有超过
x
个线程在运行,或者其他任何一组简单的基础系统状况的
测量。
虽然这种简单的“潜在原因”测量很容易收集,但它们并不能产生有意义的告警供你采
取行动。
CPU
利用率的偏差也可能表明一个备份进程正在运行或一个垃圾收集器正在做
它的清理工作,又或者任何其他可能在一个系统上发生的现象。换句话说,这些情况可
能反映了诸多系统问题,而不仅是我们真正关心的那些问题。基于底层硬件配置的异常
告警往往会产生很高比例的误报。 ...