13章緊急対応

執筆:Corey Adam Baye

編集:Diane Bates

壊れないものなど存在しません。それが人生というものです。

利害関係や規模にかかわらず、組織の長期的な健全性にとって重要な特徴の一つであり、結果としてその組織を差別化するのは、緊急事態に関わる人々がどう対応するかです。緊急事態に対して初めからうまく対応できる人はほとんどいません。適切な対応を行うには、準備に加えて定期的で適切なハンズオントレーニングが必要になります。綿密なトレーニングとテストのプロセスを確立しメンテナンスしていくには、経営層や管理職の理解に加えてスタッフが十分に注意を払うことが必要になります。これらの要素がすべて揃っていなければ、システム、プロセス、そして人々が間違いなく緊急事態に効率的に対応できるよう、予算、時間、エネルギーを費やし、場合によっては稼働時間さえも犠牲にするという判断をチームが下せる環境を育むことはできません。

ポストモーテム文化に関する章では、緊急対応が求められるようなインシデントを確かな学びの機会にするためのポストモーテムの書き方の詳細を説明します(15章を参照)。本章では、そういったインシデントの具体的な例を紹介します。

13.1 システムが壊れた際に行うこと

何よりもまず、パニックを起こしてはいけません。あなたはひとりぼっちではなく、この世の終わりというわけでもありません。あなたはプロフェッショナルであり、こういった事態を処理できるような訓練を受けているのです。通常、誰も物理的な危険にさらされることはありません。危機的状況に陥るのは、不運な電子くらいのものです。本当に最悪の状態でも、インターネットの半分がダウンするくらいでしょう。ですから、まずは深呼吸をして、それから先に進みましょう。 ...

Get SRE サイトリライアビリティエンジニアリング ―Googleの信頼性を支えるエンジニアリングチーム now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.