Skip to Content
SRE サイトリライアビリティエンジニアリング ―Googleの信頼性を支えるエンジニアリングチーム
book

SRE サイトリライアビリティエンジニアリング ―Googleの信頼性を支えるエンジニアリングチーム

by Betsy Beyer, Chris Jones, Jennifer Petoff, Niall Richard Murphy, 澤田 武男, 関根 達夫, 細川 一茂, 矢吹 大輔, Sky株式会社 玉川 竜司
August 2017
Intermediate to advanced
590 pages
8h 40m
Japanese
O'Reilly Japan, Inc.
Content preview from SRE サイトリライアビリティエンジニアリング ―Googleの信頼性を支えるエンジニアリングチーム

付録Cインシデント状況ドキュメントの例

Shakespeare Sonnet++ Overload: 2015-10-21

インシデント管理情報:http://incident-management-cheat-sheet

(コミュニケーション責任者はサマリを最新の状況に保つこと)

サマリ:シェークスピア検索サービスに、新たに発見されたソネットが検索インデックスにないことから、カスケード障害が発生中。

ステータス:アクティブ、インシデント番号465

指示:IRCの#shakespeareチャンネル

指示系統(全応答者)

  • 現在のインシデント指揮者:jennifer
    • 実作業責任者:docbrown
    • 計画責任者:jennifer
    • コミュニケーション責任者:jennifer
  • 次のインシデント指揮者:未決定

(少なくとも4時間おき、あるいはコミュニケーション責任者の引き継ぎの際に更新すること)

状況の詳細(最終更新時刻 2015-10-21 15:28 UTC。jenniferが更新)

終了基準:

  • シェークスピア検索のコーパスへの新しいソネットの追加。TODO
  • 30分以上にわたって可用性(99.99%)及びレイテンシ(99パーセンタイル < 100 ms)のSLOの範囲内にあること。TODO

TODOリスト及び登録されたバグ:

  • MapReduceジョブを実行してシェークスピアのコーパスのインデックスを生成しなおす。DONE
  • 緊急リソースを借りて追加のキャパシティを立ち上げる。DONE
  • 次元転移装置を有効にして、クラスタ間でロードバランスを行う(Bug 5554823)。TODO

インシデントのタイムライン(新しいものが先頭:時刻はUTC)

  • 2015-10-21 15:28 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

データベースリライアビリティエンジニアリング ―回復力のあるデータベースシステムの設計と運用

データベースリライアビリティエンジニアリング ―回復力のあるデータベースシステムの設計と運用

Laine Campbell, Charity Majors, 八木 和生
エレガントなSciPy ―Pythonによる科学技術計算

エレガントなSciPy ―Pythonによる科学技術計算

Juan Nunez-Iglesias, Stéfan van der Walt, Harriet Dashnow, 山崎 邦子, 山崎 康宏
リーンエンタープライズ ―イノベーションを実現する創発的な組織づくり

リーンエンタープライズ ―イノベーションを実現する創発的な組織づくり

Jez Humble, Joanne Molesky, Barry O'Reilly, 角 征典, 笹井 崇司, Eric Ries

Publisher Resources

ISBN: 9784873117911Other