Skip to Content
SRE サイトリライアビリティエンジニアリング ―Googleの信頼性を支えるエンジニアリングチーム
book

SRE サイトリライアビリティエンジニアリング ―Googleの信頼性を支えるエンジニアリングチーム

by Betsy Beyer, Chris Jones, Jennifer Petoff, Niall Richard Murphy, 澤田 武男, 関根 達夫, 細川 一茂, 矢吹 大輔, Sky株式会社 玉川 竜司
August 2017
Intermediate to advanced
590 pages
8h 40m
Japanese
O'Reilly Japan, Inc.
Content preview from SRE サイトリライアビリティエンジニアリング ―Googleの信頼性を支えるエンジニアリングチーム

14章インシデント管理

執筆:Andrew Stribblehill†1

編集:Kavita Guliani

効率的なインシデント管理は、インシデントによって引き起こされる混乱を制限し、できる限り早く通常の運用に復帰するための鍵となります。起こりうるインシデントに備え模擬訓練を前もって行っていなければ、原則に基づいているだけのインシデント管理は、現実の状況に対して的外れになってしまうかもしれません。

本章では、あるインシデントの様子を最初から最後まで描き出していきます。このインシデントは、アドホックにインシデント管理を行ったためにあっという間に管理不能になってしまいました。そして、このインシデントに対する十分に管理の行き届いたアプローチの概要を見て、インシデント管理がうまく機能していたら同じインシデントがどのようになっていたかを見ていきます。

14.1 管理されていないインシデント

あなたはThe Firmという企業に務めているオンコールエンジニアのMaryです。今は木曜の午後2時で、ページャーが鳴ったところです。ブラックボックスモニタリングからは、あなたが担当しているサービスのトラフィックが1つのデータセンターでまったく処理されなくなったことを告げています。ため息をついて、あなたはコーヒーを置いて修正作業に着手します。このタスクに取りかかって数分後、別のアラートがもう1つのデータセンターでも処理が止まったことを告げます。そして、あなたが担当している5つのデータセンターのうち、3つ目のデータセンターでも同じ障害が発生します。悪いことに、トラフィックは残りのデータセンターで処理できる以上の量であるため、過負荷状態が始まります。あなたが気づいたときには、サービスは過負荷でまったくリクエストを処理できなくなっていました。 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

データベースリライアビリティエンジニアリング ―回復力のあるデータベースシステムの設計と運用

データベースリライアビリティエンジニアリング ―回復力のあるデータベースシステムの設計と運用

Laine Campbell, Charity Majors, 八木 和生
エレガントなSciPy ―Pythonによる科学技術計算

エレガントなSciPy ―Pythonによる科学技術計算

Juan Nunez-Iglesias, Stéfan van der Walt, Harriet Dashnow, 山崎 邦子, 山崎 康宏
リーンエンタープライズ ―イノベーションを実現する創発的な組織づくり

リーンエンタープライズ ―イノベーションを実現する創発的な組織づくり

Jez Humble, Joanne Molesky, Barry O'Reilly, 角 征典, 笹井 崇司, Eric Ries

Publisher Resources

ISBN: 9784873117911Other