3章アラート、オンコール、インシデント管理
アラートは、監視の中でも特にうまくやる必要がある重要な部分です。理由はともかく、インフラは真夜中におかしな動きをしがちです。どうしてそういう問題はいつも午前3時に起きるのでしょうか。どうして障害が起こるのは火曜日の午後2時ではないのでしょうか。アラートがなかったら、障害に気づくためには毎日ずっとグラフを眺め続けている必要があります。しかし、壊れる可能性のあるものがたくさん存在していて、どんどんシステムが複雑になっていくことを考えれば、そんなことはとても不可能です。
そこでアラートです。アラートが監視システムの重要な機能の1つであることには、誰もが賛同するでしょう。しかし、監視の目的はアラートを送るだけではないことを、私たちは忘れがちです。定義を思い出してみましょう。
監視とは、あるシステムやそのシステムのコンポーネントの振る舞いや出力を観察しチェックし続ける行為である。
アラートは、この目的を達成するための1つの方法でしかないのです。
素晴らしいアラートは、見た目よりも難しいものです。システムのメトリクスは急激に変化しやすいので、そのままのデータポイントを使ってアラートを送ると、誤った警報を送ってしまいやすくなります。この問題を回避するため、移動平均を使ってデータをならします(例えば5分間のデータを平均して1つのデータポイントにまとめる)。しかし、これによって情報の粒度が落ち、重要なイベントを見逃すことに繋がることがあります。これではよいことがありません。
アラートをうまく送るのが非常に難しいもう1つの理由は、アラートは人間に送られる場合が多い一方で、人間の注意力には限りがあることです。その注意力は、何かが起こったらメッセージを送ってくる監視システムではなく、自分で選んだ問題に対して使いたいところでしょう。アラートを受け取るたびに、監視システムによってあなたの注意力は少しずつ削られていくのです。 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access