10章ポストモーテムの文化:失敗からの学び

執筆:Daniel Rogers、Murali Suriar、Sue Lueder、Pranjal Deo、Divya Sudhakar

協力:Gary O’Connor、Dave Rensin

私たちの経験によれば、真に非難のないポストモーテム文化はシステムの信頼性を高めます。非難のないポストモーテム文化が、成功するSREの組織を生み出し、維持するために重要であると私たちは信じています。

ポストモーテムを組織に導入するのは、技術的な変化であるのと同様に、文化的な変化でもあります。こういった移行を行うのは不安を感じるかもしれません。本章の重要なポイントは、この変化を起こすことは可能であり、必ずしも克服できない変化ではないということです。システムが最終的に自己修復すると願いつつインシデントから抜け出さないでください。非常に基本的なポストモーテムの手順を導入することから小さく始め、そのプロセスを組織に最も適合するように調整していくことができます。多くのことと同じように、1つのやり方ですべてをまかなうことはできないのです。

うまく執筆され、それを基に行動され、広く共有されれば、ポストモーテムはポジティブな組織の変化を推進し、障害が繰り返されるのを防ぐための非常に効果的なツールになりえます。良いポストモーテムの書き方の原理を示すために、本章ではGoogleで実際に起きた障害のケーススタディを紹介します。貧弱に書かれたポストモーテムの例は、なぜ「良くない」ポストモーテムのプラクティスが、健全なポストモーテム文化を作りだそうとしている組織に害を与えるのかを説明します。そして良くないポストモーテムをインシデント後に書かれた実際のポストモーテムと比較し、質の高いポストモーテムの原理とベストプラクティスを示します。 ...

Get サイトリライアビリティワークブック ―SREの実践方法 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.