Skip to Content
SRE サイトリライアビリティエンジニアリング ―Googleの信頼性を支えるエンジニアリングチーム
book

SRE サイトリライアビリティエンジニアリング ―Googleの信頼性を支えるエンジニアリングチーム

by Betsy Beyer, Chris Jones, Jennifer Petoff, Niall Richard Murphy, 澤田 武男, 関根 達夫, 細川 一茂, 矢吹 大輔, Sky株式会社 玉川 竜司
August 2017
Intermediate to advanced
590 pages
8h 40m
Japanese
O'Reilly Japan, Inc.
Content preview from SRE サイトリライアビリティエンジニアリング ―Googleの信頼性を支えるエンジニアリングチーム

付録Fプロダクションミーティングの議事録の例

日時:2015-10-23

参加者:agoogler、clarac、docbrown、jennifer、martym

連絡事項:

  • 大きなサービス障害の発生(#465)。エラーバジェットが使い果たされた。

これまでのアクションアイテムのレビュー

  • 山羊のテレポーターが牛にも使えることの確認(バグ1011101)。
    • 質量加速における非線形性が予測可能になったので、数日中に正確に目標を定められるようになる見込み。

障害のレビュー

  • 新しいソネット(障害465)。
    • 潜在バグ(ヒットしない検索でのファイルディスクリプタのリーク)、新しいソネットがコーパス中になかったこと、前例のない予想外のトラフィックの量が重なって生じたカスケード障害によって12.1億のクエリがロスト。
    • ファイルディスクリプタのリークのバグは修正され(バグ5554825)、プロダクション環境にデプロイ済み。
    • ロードバランシングのための次元転移装置の使用(バグ5554823)とロードシェディングの使用(バグ5554826)による再発防止を検討中。
    • 可用性のエラーバジェットの枯渇。プロダクション環境へのプッシュは、奇妙で予測不能ということでdocbrownが例外を許可してもらわない限り(ただしそういった例外が認められることはおそらくないというのが一致した意見である)、1ヶ月間凍結される。

ページングされたイベント

  • AnnotationConsistencyTooEventual:今週5回ページされた。おそらくはBigtableの地域間レプリケーションの遅延によるものと思われる。
    • 引き続き調査中、バグ4821600を参照。
    • 直近では修正されない見込み。対応アクションを取れないアラートを減らすため、妥当な範囲で一貫性の閾値を引き上げる。 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

データベースリライアビリティエンジニアリング ―回復力のあるデータベースシステムの設計と運用

データベースリライアビリティエンジニアリング ―回復力のあるデータベースシステムの設計と運用

Laine Campbell, Charity Majors, 八木 和生
エレガントなSciPy ―Pythonによる科学技術計算

エレガントなSciPy ―Pythonによる科学技術計算

Juan Nunez-Iglesias, Stéfan van der Walt, Harriet Dashnow, 山崎 邦子, 山崎 康宏
リーンエンタープライズ ―イノベーションを実現する創発的な組織づくり

リーンエンタープライズ ―イノベーションを実現する創発的な組織づくり

Jez Humble, Joanne Molesky, Barry O'Reilly, 角 征典, 笹井 崇司, Eric Ries

Publisher Resources

ISBN: 9784873117911Other