Skip to Content
SRE サイトリライアビリティエンジニアリング ―Googleの信頼性を支えるエンジニアリングチーム
book

SRE サイトリライアビリティエンジニアリング ―Googleの信頼性を支えるエンジニアリングチーム

by Betsy Beyer, Chris Jones, Jennifer Petoff, Niall Richard Murphy, 澤田 武男, 関根 達夫, 細川 一茂, 矢吹 大輔, Sky株式会社 玉川 竜司
August 2017
Intermediate to advanced
590 pages
8h 40m
Japanese
O'Reilly Japan, Inc.
Content preview from SRE サイトリライアビリティエンジニアリング ―Googleの信頼性を支えるエンジニアリングチーム

付録Dポストモーテムの例

Shakespeare Sonnet++ ポストモーテム(インシデント番号465)

作成日:2015-10-21

作者:jennifer、martym、agoogler

ステータス:完了、アクションアイテムは対応中。

サマリ:新しいソネットが発見されたことによって急激にシェークスピアへの関心が高まった期間に、シェークスピア検索が66分間にわたってダウンした。

インパクト:推定12.1億のクエリがロスト、収益への影響なし†1

根本原因:異常に高い負荷と、検索語句がシェークスピアのコーパスにないことによって検索が失敗した場合に生じるリソースリークが重なったことによるカスケード障害。新たに発見されたソネットにはこれまでのシェークスピアのいずれの作品でも使われていなかった単語が使われており、ユーザーはその単語を検索した。通常の状況下では、リソースリークによるタスク障害の発生頻度は気づかれない程度の低さである†2

発生要因:トラフィックの突然の増加によって表面化した潜在バグ。

対応:トラフィックを犠牲となるクラスタへ流し、カスケード障害の緩和のために10倍のキャパシティを追加した。更新されたインデックスをデプロイし、潜在バグの影響が生じないようにした。追加のキャパシティは、新しいソネットに対する世間の関心の高まりが落ち着くまで保持する。リソースリークは特定され、修正がデプロイされた。

検出:BorgmonがHTTP 500が大量に生じていることを検出し、オンコールをページした。

アクションアイテム:†3

アクションアイテム種類担当バグ
手順書のカスケード障害への対応方法を更新する緩和jennifern/a DONE
flux capacitorを使ってクラスタ間のバランスを取る ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

データベースリライアビリティエンジニアリング ―回復力のあるデータベースシステムの設計と運用

データベースリライアビリティエンジニアリング ―回復力のあるデータベースシステムの設計と運用

Laine Campbell, Charity Majors, 八木 和生
エレガントなSciPy ―Pythonによる科学技術計算

エレガントなSciPy ―Pythonによる科学技術計算

Juan Nunez-Iglesias, Stéfan van der Walt, Harriet Dashnow, 山崎 邦子, 山崎 康宏
リーンエンタープライズ ―イノベーションを実現する創発的な組織づくり

リーンエンタープライズ ―イノベーションを実現する創発的な組織づくり

Jez Humble, Joanne Molesky, Barry O'Reilly, 角 征典, 笹井 崇司, Eric Ries

Publisher Resources

ISBN: 9784873117911Other