
94
|
第
4
章
二进制
文件
监控
基础设施
告警管理器
告警 工单
图
4
-
1
:监控测试环境层次
1.
二进制报告
:检查它导出的度量指标变量的值,在特定条件下是否按预期产生了
变化。
2.
监控配置
:确保规则评估产生了预期的结果,并在特定条件下产生预期的告警。
3.
告警配置
:根据告警标签的值测试,看它所生成的告警是否到达了预期。
如果你无法通过仿真的方式测试监控,或者你所处的阶段就是无法进行监控测试,
请考虑另外搭建一套运行的系统,暴露(导出)那些预先设定的指标,如请求数和
错误数。你可以使用此系统来验证仿真的时间序列和告警。在配置之后,你的告警
规则很可能数月或数年都不会触发,因而你需要确信当指标超过某个阈值时,工程
师会收到正确的有意义的告警通知。
小结
由于
SRE
这一角色负责着生产系统的可靠性,因此
SRE
通常需要非常熟悉服务的监
控系统,以及服务的各种功能。如果没有这方面的知识,
SRE
可能不知道该看哪里,
如何识别异常行为,或者如何在紧急情况下找到所需的信息。
我们希望通过指出监控系统里有用的功能及其原因,帮助你评估你的监控策略与需
求的匹配程度、探索你能利用到的一些其他功能、思考那些你可能想要做出的变化。
你可能会发现,将一些指标源和监控策略记录在一起的方式将会很有帮助。这种准
确的融合是需要高度依赖于上下文的。确保采集的指标都服务于特定的目的。这样
做是为了更好地进行容量规划,协助排错(
debugging
)或直接给你发送相关问题的
通知。