3章SLOエンジニアリングのケーススタディ
執筆:Ben McCormack(Evernote)、William Bonnell(The Home Depot)
協力:Garrett Plasky(Evernote)、Alex Hidalgo、Betsy Beyer、Dave Rensin
SREの教義の多くはGoogleの壁の中で形作られたものですが、その原理は私たちの門の外で長く息づいていたものです。Google SREの標準的なプラクティスの多くは、業界の中の多くの他の組織で独自に発見され、あるいは採用されてきました。
SLOはSREモデルの基礎になる考え方です。私たちは、Google Cloud Platform(GCP)の顧客がより信頼性の高いサービスを構築するのを支援する経験豊富なSREのグループである、カスタマーリライアビリティエンジニアリング(Customer Reliability Engineering = CRE)チームを発足させました。このチームと顧客とのやりとりには終始SLOが使われます。
ここでは2つの非常に異なる企業によって語られる2つの物語を紹介します。これは、Google CREチームと共に働くにあたってSLOとエラーバジェットベースのアプローチを採用するにいたった彼らの旅路の概要です。SLOとエラーバジェットに関するより一般的な議論については本書2章と『SRE サイトリライアビリティエンジニアリング』の「3章 リスクの受容」をご覧ください。
3.1 EvernoteにおけるSLOの物語
執筆:Ben McCormack(Evernote)
Evernoteは、個人やチームが情報を生み出し、整理し、共有するのを支援するクロスプラットフォームアプリケーションです。世界中で2.2億人以上のユーザーを持ち、テキストベースのノート、ファイル、添付ファイルや画像などからなる120億以上の情報をこのプラットフォーム内に保存しています。舞台裏では、Evernoteのサービスは750以上のMySQLインスタンスによってサポートされています。 ...
Get サイトリライアビリティワークブック ―SREの実践方法 now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.