9章インシデント対応

執筆:Jennifer Mace、Jelena Oertel、Stephen Thorne、Arup Chakrabarti (PagerDuty)

協力:Jian Ma、Jessie Yang

サービスが常にスムーズに動作することを誰もが求めていますが、私たちのこの不完全な世界では障害が起こります。普通ではない、緊急の問題を解決するために複数人あるいはチームが必要になった場合、何が起こるでしょうか? 突如としてインシデント対応と問題解決を同時並行で管理しなければならない事態に陥るのです。

インシデントを解決するということは、インパクトを緩和し、サービスを以前の状態に戻すということです。インシデントの管理とは、対応チームの作業を効率的なやり方で調整し、対応者とインシデントの進行状況に関心を持つ人々とのコミュニケーションの流れを確保することです。Googleを含む多くのテクノロジー企業では、そういった実践を長く活用してきた緊急対応を行う組織から、インシデント管理のベストプラクティスを取り入れて対応しています。

インシデント管理の基本的な前提は、インシデントに対して構造化された方法で対応するということです。大規模なインシデントは混乱させられるものです。事前にチームが合意していた構造があれば、混乱を減らすことができます。災害が起こる前にコミュニケーションと作業調整の方法についてのルールを形作っておけば、インシデントが生じたときにチームはその解決に集中できます。チームがすでにコミュニケーションと調整を実践し、馴染んでいるなら、インシデントの間にそういった要素について心配する必要はありません。

インシデント対応のプロセスのセットアップは、たいへんな作業とはかぎりません。広く利用できるガイドとなるリソースは、『SRE ...

Get サイトリライアビリティワークブック ―SREの実践方法 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.