SRE サイトリライアビリティエンジニアリング ―Googleの信頼性を支えるエンジニアリングチーム
by Betsy Beyer, Chris Jones, Jennifer Petoff, Niall Richard Murphy, 澤田 武男, 関根 達夫, 細川 一茂, 矢吹 大輔, Sky株式会社 玉川 竜司
15章ポストモーテムの文化:失敗からの学び
執筆:John Lunney、Sue Lueder
編集:Gary O'Connor
失敗のコストは教育である
——Devin Carraway
私たちはSREとして、大規模で複雑な分散システムを扱っています。私たちは常にサービスを新しい機能で拡張し続け、新しいシステムを追加し続けています。インシデントやサービス障害は、私たちの規模や変化の速度の下では避けがたいことです。 インシデントが生じた場合、私たちはそこに潜んでいる問題を修正し、サービスは通常の運用状況に戻ります。こういったインシデントから学びを得るための定式化されたプロセスがなければ、そういったインシデントは無限に繰り返されることになるでしょう。野放しのままになってしまえば、インシデントの複雑さは加速度的に増し、あるいは積み重なってシステムやその運用担当者を圧倒し、最終的にはユーザーにまで影響が及ぶことになります。そのため、ポストモーテムはSREにとって欠かせないツールなのです。
ポストモーテムの概念は、IT業界ではよく知られています[All12]。ポストモーテムは、インシデントとそのインパクト、その緩和や解消のために行われたアクション、根本原因(群)、インシデントの再発を避けるためのフォローアップのアクションを記録するために書かれるものです。本章では、ポストモーテムを作成すべき場合を判定するための条件、ポストモーテムに関するベストプラクティス、そして数年にわたって私たちが蓄積してきた経験に基づく、ポストモーテムの文化の育み方について述べます。
15.1 Googleにおけるポストモーテムの哲学
ポストモーテムを書くことの主な目的は、インシデントがドキュメント化されること、影響を及ばしたすべての根本原因(群)が十分に理解されること、そしてとりわけ、再発の可能性や影響を削減するための効果的な予防策が確実に導入されるようにすることです。根本原因分析の詳細な調査は本章の範囲を超えます(その代わりに ...