Skip to Content
SRE サイトリライアビリティエンジニアリング ―Googleの信頼性を支えるエンジニアリングチーム
book

SRE サイトリライアビリティエンジニアリング ―Googleの信頼性を支えるエンジニアリングチーム

by Betsy Beyer, Chris Jones, Jennifer Petoff, Niall Richard Murphy, 澤田 武男, 関根 達夫, 細川 一茂, 矢吹 大輔, Sky株式会社 玉川 竜司
August 2017
Intermediate to advanced
590 pages
8h 40m
Japanese
O'Reilly Japan, Inc.
Content preview from SRE サイトリライアビリティエンジニアリング ―Googleの信頼性を支えるエンジニアリングチーム

15章ポストモーテムの文化:失敗からの学び

執筆:John Lunney、Sue Lueder

編集:Gary O'Connor

失敗のコストは教育である

——Devin Carraway

私たちはSREとして、大規模で複雑な分散システムを扱っています。私たちは常にサービスを新しい機能で拡張し続け、新しいシステムを追加し続けています。インシデントやサービス障害は、私たちの規模や変化の速度の下では避けがたいことです。 インシデントが生じた場合、私たちはそこに潜んでいる問題を修正し、サービスは通常の運用状況に戻ります。こういったインシデントから学びを得るための定式化されたプロセスがなければ、そういったインシデントは無限に繰り返されることになるでしょう。野放しのままになってしまえば、インシデントの複雑さは加速度的に増し、あるいは積み重なってシステムやその運用担当者を圧倒し、最終的にはユーザーにまで影響が及ぶことになります。そのため、ポストモーテムはSREにとって欠かせないツールなのです。

ポストモーテムの概念は、IT業界ではよく知られています[All12]。ポストモーテムは、インシデントとそのインパクト、その緩和や解消のために行われたアクション、根本原因(群)、インシデントの再発を避けるためのフォローアップのアクションを記録するために書かれるものです。本章では、ポストモーテムを作成すべき場合を判定するための条件、ポストモーテムに関するベストプラクティス、そして数年にわたって私たちが蓄積してきた経験に基づく、ポストモーテムの文化の育み方について述べます。

15.1 Googleにおけるポストモーテムの哲学

ポストモーテムを書くことの主な目的は、インシデントがドキュメント化されること、影響を及ばしたすべての根本原因(群)が十分に理解されること、そしてとりわけ、再発の可能性や影響を削減するための効果的な予防策が確実に導入されるようにすることです。根本原因分析の詳細な調査は本章の範囲を超えます(その代わりに ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

データベースリライアビリティエンジニアリング ―回復力のあるデータベースシステムの設計と運用

データベースリライアビリティエンジニアリング ―回復力のあるデータベースシステムの設計と運用

Laine Campbell, Charity Majors, 八木 和生
エレガントなSciPy ―Pythonによる科学技術計算

エレガントなSciPy ―Pythonによる科学技術計算

Juan Nunez-Iglesias, Stéfan van der Walt, Harriet Dashnow, 山崎 邦子, 山崎 康宏
リーンエンタープライズ ―イノベーションを実現する創発的な組織づくり

リーンエンタープライズ ―イノベーションを実現する創発的な組織づくり

Jez Humble, Joanne Molesky, Barry O'Reilly, 角 征典, 笹井 崇司, Eric Ries

Publisher Resources

ISBN: 9784873117911Other