1章SREにおけるコンテキストとコントロール

Coburn Watson(Microsoft、元Netflix)とDavid N. Blank-Edelmanによる対談

David:あなたとはこれまで、さまざまなことについて語り合う機会を楽しんできました。あなたからお聞きした中で私が最も興味を引かれた点の一つは、SREを実践する方法についてです。つまり、コントロールを中心とするプロセス(これがSREの実践では一般的な方法ですが)を用いるのではなく、コンテキストの提供を重視するという主張です。本日は、この点を掘り下げていきたいと思います。まず、コンテキストとコントロールの対比が何を意味するのかと、それぞれの優れた例を説明していただけるでしょうか。

Coburn:私は、コンテキストとは追加の関連情報を提供することだと考えています。それによって誰かが、与えられたリクエストや表明の背後にある論理的根拠をより的確に理解できるようになるわけです。最も高いレベルで見ると、Netflixでは可用性に関連するコンテキストがエンジニアリングチームと共有されますが、これは提供するマイクロサービスに関する可用性の傾向と、それが望ましい目標とどのように関連しているかを示す情報となるでしょう。ここには下流に対する依存関係も含まれます。こうしたドメイン固有のコンテキストが与えられることで、エンジニアリングチームは可用性の改善に必要なステップを取るための責任(とコンテキスト)を手にすることになります。

コントロールベースのモデルでは、チームとしてマイクロサービスの可用性目標を把握しているでしょうが、その目標を達成できない場合には罰則の対象となるかもしれません。例えば、プロダクション†1にコードをプッシュする権限を取り上げることなどが考えられます。Netflixでは試行錯誤を経て、先ほど説明したモデルにたどり着きました。つまり、マイクロサービスレベルの可用性に関するコンテキストを共有した上で、必要に応じて担当チームとの共同作業を通じ、可用性の改善を支援するようにしています。 ...

Get SREの探求 ―様々な企業におけるサイトリライアビリティエンジニアリングの導入と実践 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.