
356
第
14
章 監視・モニタリング・オブザーバビリティの基礎知識
障害対応の基本といろは
14
-
7
障害対応はインシデントレスポンスとも呼びます。そして障害対応の仕組みや体
制をインシデントマネージメントシステム(
IMS
:
Incident Management System
)
と呼びます
※
3
。インシデントは事象やできごとを意味する英単語です。広い意味で
のインシデントレスポンスはシステム障害だけでなくセキュリティ事故なども含み
ますが、ここではシステム障害に絞って説明します。
障害対応はシステムの異常状態に対処し、その多くは異常状態から回復させる取
り組みです。多くの場合は障害状態からの復旧を目指しますが、場合によっては影
響の緩和や回避を目指すこともあります。技術的に異常から回復する取り組みだけ
でなく、状況の把握やユーザーやステークホルダーへの情報提供、再発防止策の検
討など広範な内容が含まれます。
障害対応が必要な状況はサービスのユーザーに何らかの影響、つまり迷惑がか
かっていると考えられ、ユーザー影響を考えるとサービス提供者の心情としては辛
いものがあります。しかし障害対応の取り組み自体はよく考えるといまの異常を回
復させる取り組みですから、状況はよくなるだけです。状況がよくないというのと、
状況がよくなっているというのは両立しますよね。
よくない状況を過剰に意識するとパフォーマンスも持続性も落ちますから、障害
対応の間は状況をよくする意識を強く持って建設的に取り組むのが重要です。
ピンチはチャンスでもあります。エンジ ...