第 9 章. 监控 Kafka Connect
本作品已使用人工智能进行翻译。欢迎您提供反馈和意见:translation-feedback@oreilly.com
作为 Kafka Connect 管道的管理员或 SRE,确保管道正常运行是你的职责。为此,您需要设置监控,以便轻松检查系统状态并快速诊断问题。除了发现和修复现有问题,监控还能让你发现未来可能出现的问题,并在问题产生影响之前进行更改。
如果有其他用户或系统依赖于您的管道,您应与他们就正常运行时间、可用性、延迟等方面的保证达成共识。这些保证 被称为服务级别目标(SLO)或服务级别协议(SLA)。良好的监控设置不仅能让您更快地发现和解决问题,还能让您更轻松地提供准确的 SLO 或 SLA。
在本章中,我们将介绍您可以用来监控 Kafka Connect 的不同机制,并就如何最好地使用它们给出一些指导。有三种方法可以让你深入了解 Kafka Connect 群集:
分析指标
使用 REST API
处理日志信息
这些资源中的每一个都提供了略有不同的系统视图,合在一起可以让你全面监控 Kafka Connect。
跟踪指标是快速发现系统问题的最可靠方法。即使是一个小型的 Kafka Connect 管道也会产生成千上万个指标,因此你应该使用监控工具来完成这项工作。这些工具可以配置警报功能,以便在某个指标报告意外值时联系管理员或 SRE。确保您了解能够显示系统当前状态的关键指标,并在这些指标出现问题时制定响应流程。
除了触发警报外,这些指标还可用于诊断特定问题和识别趋势。为了发现这类趋势,您不仅需要收集指标,还需要使用某种仪表板将其绘制成图。由于有如此多的指标,您应该有选择性地选择哪些指标发出警报,哪些指标用于仪表板,哪些指标只是收集来在故障时参考。
一旦发现问题,就需要使用正确的工具进行诊断。诊断 Kafka Connect 问题的第一步通常是检查 REST API 的状态端点。我们将在第 7 章中详细介绍如何做到这一点,但作为提醒,以下端点提供了状态信息:
GET /connectors?expand=statusGET /connectors/<CONNECTOR>/statusGET /connectors/<CONNECTOR>/tasks/<TASK_ID>/status
这些信息可以帮助你缩小问题发生的范围。例如,是影响单个连接器或任务,还是影响所有连接器或任务?您还可以使用 REST API 作为一种快速方法,在开发、启动或维护期间检查系统状态。
您可以用来监控群集的最后一个资源是日志。你应该熟悉 Kafka Connect 日志的结构,了解写出的关键信息。日志对于确定 Kafka Connect 已采取的关键操作以及准确定位问题发生的时间和原因非常有用。
既然我们已经了解了监控所需的高级流程,那么让我们更详细地了解一下日志记录和度量指标。我们从日志记录开始。
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access