27章大規模なプロダクトのローンチにおける信頼性
執筆:Rhandeev Singh、Sebastian Kirsch
執筆協力:Vivek Rau
編集:Betsy Beyer
Googleのようなインターネット企業は、従来の企業に比べてはるかに頻繁にイテレーションを行い、次々に新しいプロダクトや機能をローンチできます。このプロセスにおけるSREの役割は、サイトの安定性を損なわず頻繁な変更を可能にすることです。私たちは、「ローンチ調整エンジニア」から構成される専門のチームを立ち上げ、ローンチを成功させるためにエンジニアリングチームに対して技術的な助言を行うようにしました。
このチームは、各ローンチに共通の確認事項が記された「ローンチチェックリスト」や、一般的な問題を解決するためのレシピ集をまとめました。このチェックリストは、信頼性のあるローンチを繰り返し確実に行うための有益なツールであることが明らかになっています。
通常のGoogleのサービスについて考えてみましょう。例えばKeyholeは、Google MapsやGoogle Earthに衛星画像を提供しています。普段の日には、Keyholeは毎秒数千枚に及ぶ衛星画像を提供しています。しかし、2011年のクリスマスイブには通常のピーク時のトラフィックの25倍である、毎秒100万を超えるリクエストがありました。なぜトラフィックがこれほど極端に跳ね上がったのでしょうか?
サンタがやってきたからです。
数年前に、GoogleはNORAD(北米航空宇宙防衛司令部)と協力し、世界を巡るサンタの行程を追跡するクリスマスをテーマとしたWebサイトを立ち上げました。ユーザーは、このサイトでサンタがプレゼントを配っているのをリアルタイムに見ることができました。この催しの一つに「仮想空中飛行」があり、シミュレーションされた仮想の世界の中でサンタの行程を追跡するために使われたのが衛星画像だったのです。 ...
Get SRE サイトリライアビリティエンジニアリング ―Googleの信頼性を支えるエンジニアリングチーム now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.