SRE サイトリライアビリティエンジニアリング ―Googleの信頼性を支えるエンジニアリングチーム
by Betsy Beyer, Chris Jones, Jennifer Petoff, Niall Richard Murphy, 澤田 武男, 関根 達夫, 細川 一茂, 矢吹 大輔, Sky株式会社 玉川 竜司
第Ⅱ部原則
第Ⅱ部では、SREにおける仕事の典型的な進め方の基礎となる原則を見ていきます。それは、SREのオペレーション全般に影響を及ぼすパターン、振る舞い、関心事項です。
この部の最初の章である「3章 リスクの受容」は、「SREの仕事とはどういうものか」、そして「なぜそのような仕事をするのか」についての幅広い見地を得たい方にとっては、最重要となる必読の章です。この章では、リスクの視点、すなわちリスクの評価、管理、エラーバジェットを使ったサービス管理に有益な中立的アプローチといったことを通じてSREを見ていきます。
サービスレベル目標は、SREにとってのもう一つの基本的な概念です。IT業界では一般に、異なる複数の概念をサービスレベルアグリーメントという全般的な旗の下にまとめてしまっているために、それらの概念についてはっきりとした考えを巡らせることが難しくなっている傾向があります。「4章 サービスレベル目標」は、アグリーメントに基づく目標から指標を分離し、SREがこれらの用語をどのように使っているのかを見ていきます。そして、読者自身のアプリケーションに有益なメトリクスを見つけ出すためにおすすめしたい方法をいくつか紹介します。
トイルを撲滅することは、SREにとって最も重要なタスクの一つであり、これが「5章 トイルの撲滅」のテーマです。私たちにとってのトイルの定義は、日常的に繰り返される運用上の作業であり、永続的な価値を生み出さず、サービスの成長に比例してスケールするものです。
Googleであれどこであれ、モニタリングはプロダクション環境でやるべきことの中で絶対に欠かせない要素です。サービスをモニタリングしていなければ、何が起きているのかを知ることができず、何が起きているのかが見えていなければ、信頼性を保つことはできません。「 ...