14章インシデント管理

執筆:Andrew Stribblehill†1

編集:Kavita Guliani

効率的なインシデント管理は、インシデントによって引き起こされる混乱を制限し、できる限り早く通常の運用に復帰するための鍵となります。起こりうるインシデントに備え模擬訓練を前もって行っていなければ、原則に基づいているだけのインシデント管理は、現実の状況に対して的外れになってしまうかもしれません。

本章では、あるインシデントの様子を最初から最後まで描き出していきます。このインシデントは、アドホックにインシデント管理を行ったためにあっという間に管理不能になってしまいました。そして、このインシデントに対する十分に管理の行き届いたアプローチの概要を見て、インシデント管理がうまく機能していたら同じインシデントがどのようになっていたかを見ていきます。

14.1 管理されていないインシデント

あなたはThe Firmという企業に務めているオンコールエンジニアのMaryです。今は木曜の午後2時で、ページャーが鳴ったところです。ブラックボックスモニタリングからは、あなたが担当しているサービスのトラフィックが1つのデータセンターでまったく処理されなくなったことを告げています。ため息をついて、あなたはコーヒーを置いて修正作業に着手します。このタスクに取りかかって数分後、別のアラートがもう1つのデータセンターでも処理が止まったことを告げます。そして、あなたが担当している5つのデータセンターのうち、3つ目のデータセンターでも同じ障害が発生します。悪いことに、トラフィックは残りのデータセンターで処理できる以上の量であるため、過負荷状態が始まります。あなたが気づいたときには、サービスは過負荷でまったくリクエストを処理できなくなっていました。 ...

Get SRE サイトリライアビリティエンジニアリング ―Googleの信頼性を支えるエンジニアリングチーム now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.