第5章 监控与诊断
本章内容:
- 显示HBase表的磁盘利用率
- 安装Ganglia来监控HBase集群
- OpenTSDB——使用HBase监控HBase集群
- 安装Nagios来监控HBase进程
- 使用Nagios来检查Hadoop/HBase日志
- 使用一些简单脚本来报告集群状态
- 热点区域——诊断写操作
5.1 简介
要确保集群正常运行,监控HBase集群的状态至关重要。分布式系统的监控是一项挑战性的工作,除了要关心每台服务器的状态,还要关心整个集群的状态。
HBase从Hadoop的度量框架继承了一套监控API。该接口公布了很多种指标,这些指标给我们提供一些能反映集群内部情况的信息。我们可以对这些指标进行配置,将它们公布给其他的一些监控系统(如Ganglia或OpenTSDB),这些监控系统可以收集这些指标并以图表的方式将信息可视化地显示出来。Ganglia和OpenTSDB的图表可以帮助我们了解到集群的内部情况,包括每台服务器的情况和整个集群的情况。
图表可以帮我们对历史状态建立起一个总体的认识,但我们还需要有一种能够检查集群当前状态的机制,这种机制还要能够在集群出现问题时发送通知或者自动采取某些措施。对于这一类监控任务来说,Nagios就是一种很好的解决方案。Nagios可以作为监控系统的控制中心对集群资源进行监控,并且能够在必要时提醒用户。
本章将介绍如何使用Ganglia、OpenTSDB、Nagios以及其他一些工具来对HBase集群进行监控和诊断。本章将从一个简单的任务开始:显示HBase表的磁盘利用率。然后将介绍如何安装和配置Ganglia来监控HBase的指标,并展示一个使用Ganglia图形的例子。接下来是介绍OpenTSDB的安装,它与Ganglia类似,但更具可伸缩性,因为它构建在HBase之上。 ...
Get HBase管理指南 now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.