19章Alertmanager

18章では、Prometheusでアラートルールをどのように定義するかを学んだ。アラートルールは、Alertmanagerにアラートを送り込む。Alertmanagerの仕事は、すべてのPrometheusサーバからすべてのアラートを取り込み、アラートをメール、チャットメッセージ、オンコール呼び出しなどの通知に変換することである。Alertmanagerの使い方の初歩は2章で簡単に説明したが、この章では、Alertmanagerを設定し、フルパワーを引き出す方法を学ぶ。

19.1 通知パイプライン

Alertmanagerは、ただ一対一でアラートを通知に変換する以上のことを行う。理想を言えば、ひとつの本番インシデントに対してひとつの通知が送られてくるようにしたい。Alertmanagerは、そこまでではないものの、通知に変換する過程でアラートをどのように処理するかを制御できるパイプラインを提供して、理想に近づく努力をしている。そして、Prometheus本体でラベルが中心的な役割を果たしているのと同じように、Alertmanagerでもラベルが重要な役割を担う。

抑止(inhibition)
症状に基づくアラートを使っていても、もっと深刻なアラートが発火しているようなときには、アラートを通知に変換するのを止めたい場合がある。たとえば、サービスが実行されているデータセンタが障害を起こし、トラフィックも受け付けない状態になっているような場合である。これは抑止の役割である。
サイレンス(silencing)
問題があることをすでに知っている場合や、メンテナンスのためにサービスを落としている場合には、それについての情報を送ってオンコール担当者を呼び出しても無意味である。 ...

Get 入門 Prometheus ―インフラとアプリケーションのパフォーマンスモニタリング now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.