
18
|
第
2
章
监控惯例
推模型
幸运的是,许多公司意识到了拉取模型的不足。以前丢失的性能数据现在可以被高精度
收集和存储,并用于解决与可用性和服务质量有关的问题。指标从不同来源被推送到统
一存储库,为我们提供了一整套数据,从而使我们可以借助这些数据来推动
IT
响应和业
务决策。
同时,可以使用完全相同的指标来衡量系统的运行状况和可用性。
通过检测系统发送遥测数据而不是手动拉取数据,可以获得很大的灵活性。收集任务是
分散的,因此不再需要由于架构水平扩展(例如,扩展到很多节点)而垂直扩展收集系统。
系统报告它们是可用的
—
无须处理超时、没有断开连接或尝试重试。每个系统都可以
使用最适合其设计或环境的传输机制
;
服务器可以通过加密来利用
TCP
套接字、消息队
列或普通的旧日志流。
在这个推模型中,我最喜欢的一个方面是可以开始分隔监控系统的功能。我们不再被迫
处理一个单一的“黑匣子”来管理
IT
资产。事实上,随着我们开始理解这些离散的功能
单元,我们便可以开始调研其他行业(例如,航空公司、医药等)并将其最佳实践应用
于自己的行业。
Graphite
适合监控领域吗
你能问这个问题,我很高兴。说实话,
Graphite
几乎在监控生命周期的每一环节都能发
挥作用。这是否意味着
Graphite
就是我之前提到的那些可怕的单体应用程序之一呢?
一
点也不是。如果你能够使用
Graphite
作为“真实来源”,那么由于其灵活的设计、定义
明确的服务接口和所提供的
API
,它能够在监控体系结构的各个地方履行不同的职责。
为所有指标和状态建立一个集中的、 ...