11章オンコール対応

執筆:Andrea Spadaccini†2

編集:Kavita Guliani

オンコール対応は、サービスの信頼性と可用性を保つために、多くの運用及びエンジニアリングチームが引き受けなければならないきわめて重要な職務です。とはいえ、オンコールのローテーションと責任の構成には、サービスやチームにとって重大な結果を招きかねない落とし穴があります。本章では、何年にもわたってGoogleのサイトリライアビリティエンジニア(SRE)が発展させてきたオンコールへのアプローチの主要な教義について述べると共に、このアプローチによって信頼性のあるサービスと継続可能な運用の負荷を保ち続けられる理由を説明します。

11.1 イントロダクション

職種によっては、何らかのオンコール対応が求められることがあります。その場合、勤務時間内と勤務時間外のどちらでもコールに対応できなければなりません。これまでITの分野においては、オンコールの対応は担当するサービス群を健全な状態に保つことを主な職務とする専門の運用チームによって行われてきました。

検索、Ads、GmailといったGoogleにおける重要なサービスの多くには、パフォーマンスと信頼性に対して責任を負う専任のSREチームがいます。したがって、SREはサポートするサービスのオンコール対応を行います。SREチームが純粋な運用のチームと大きく異なるのは、問題に対するアプローチにおいてエンジニアリングの活用に非常に重きを置いていることです。そういった問題は通常は運用の領域に属するものですが、規模を考えればソフトウェアエンジニアリングによるソリューションなくしては扱うことが難しいのです。

そういった方法での問題解決を強力に推し進めるために、Googleはシステムエンジニアリングやソフトウェアエンジニアリングにおける多彩なバックグラウンドを持つ人々をSREチームに雇用しています。私たちは、SREが純粋な運用作業に費やす時間に対して50%という上限を課しています。SREには、サービスの改善だけではなく、自動化を通じてチームの影響力をスケールさせるためのエンジニアリングプロジェクトに最小でも50%の時間を割り当てることが求められます。 ...

Get SRE サイトリライアビリティエンジニアリング ―Googleの信頼性を支えるエンジニアリングチーム now with O’Reilly online learning.

O’Reilly members experience live online training, plus books, videos, and digital content from 200+ publishers.