9章25ページでシステム管理者からSREへ

Vladimir Legeza(Amazon Japan)

計測できないものは改善できない。

― William Thomson(ケルヴィン卿)(英国の物理学者、1824~1907)

この10年間でサイトリライアビリティエンジニアリングは、多くの技術企業やシステム管理者のコミュニティで広く認知される用語になりました。これは多くの場合、分散システムコンテナ化などのキーワードと緊密に組み合わせられる、コンピュータシステム管理の新しい高度な方法の同義語であり、幅広い企業が大規模なシステムを優れた効率性と費用対効果で実行およびサポートできるようにする一連の実践を表現するものと解釈されています。

サイトリライアビリティエンジニア(SRE)と従来のシステム管理者を差別化する根本的な特性は、その観点です。旧来のアプローチでは、システムがエラーを出したり過負荷になったりすることのない状態を確保しようとします。これに対してSREは、ビジネスニーズに照らしてシステムの望ましい状態を定義します†1

[†1] 監訳注:『SRE サイトリライアビリティエンジニアリング』(オライリー)の「はじめに」(原書 https://sre.google/sre-book/preface/)において、システムの信頼性を最重視する点が業界用語のDevOpsとは異なるという点を強調しています。

どちらのアプローチでも、個別のCPUコアの温度から高水準のアプリケーションのスタックトレースまで、あらゆる角度からサービスをモニタリングする膨大なメトリクスを使います。しかし、同じメトリクスでも、2つのアプローチが導き出す結論は大きく異なることになります。システム管理者の観点からすると、レイテンシが数ミリ秒ほど増えることは(問題ではあるものの)、エラーの大量発生に比べれば重大とは思わないかもしれません。これに対してSREは、エラーは発生しているかもしれないが、エンドユーザーに影響が及ばないのであればサービスは良好だとする、正反対の結論を出すかもしれません。もちろん、たとえレイテンシの増加が無視できる程度であっても顧客が不便を感じる原因となるようなら、SREは重大な問題として対処することになります。 ...

Get SREの探求 ―様々な企業におけるサイトリライアビリティエンジニアリングの導入と実践 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.