サイトリライアビリティワークブック ―SREの実践方法
by Betsy Beyer, Niall Richard Murphy, David K. Rensin, Kent Kawahara, Stephen Thorne, 澤田 武男, 関根 達夫, 細川 一茂, 矢吹 大輔, 玉川 竜司
8章オンコール
執筆:Ollie Cook、Sara Smollett、Andrea Spadaccini、Cara Donnelly、Jian Ma、Garrett Plasky (Evernote)
協力:Stephen Thorne、Jessie Yang
オンコールになるということは、一定の期間対応可能な状態にあり、その期間中に適切な緊急度をもってプロダクションのインシデントに対応する用意ができていることを意味します。サイトリライアビリティエンジニア(SRE)は、しばしばオンコールのローテーションへの参加が求められます。オンコールのシフトの間、SREは必要に応じてインシデントの診断、緩和、修正、あるいはエスカレーションを行います。加えて、SREは定期的に緊急性のないプロダクションの業務を受け持ちます。
Googleでは、オンコールになるということは明確なSREの特徴の1つです。SREチームはインシデントの緩和を行い、プロダクションの問題を修復し、運用のタスクを自動化します。私たちのSREチームのほとんどは、まだ運用のタスクを完全に自動化していないので、エスカレーションにはコンタクト先の人間、すなわちオンコールエンジニアが必要になります。サポートしているシステムの重要度、あるいはシステムの開発状況によっては、すべてのSREチームがオンコールになる必要はありません。私たちの経験では、ほとんどのSREチームはオンコールシフトを割り当てています。
オンコールは大きく複雑なトピックであり、多くの制約と試行錯誤のために限られたマージンを持っています。『SRE サイトリライアビリティエンジニアリング』の「11章 オンコール対応」ですでにこのトピックは探究されています。本章は、その章について私たちが受け取った特定のフィードバックと疑問に応えるものです。含まれる内容は以下のとおりです。 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access