June 2020
Intermediate to advanced
516 pages
7h 4m
Japanese
執筆:Steven Thurgood
協力:Jess Frame、Anthony Lenton、Carmela Quinito、Anton Tolchanov、Nejc Trdin
本章では、SLOを重大なイベントが生じた際の対処可能なアラートに変える方法を説明します。『SRE サイトリライアビリティエンジニアリング』と本書は、どちらもSLOの実装について述べています。プラットフォームの信頼性を顧客が体験するように計測するSLOを持てば、オンコールエンジニアが対応すべきときを最も高い精度で示せると私たちは信じています。ここではそれらのSLOをアラートのルールに変換し、エラーバジェットを消費しすぎないうちに問題に対応する方法を示します。
本章の例では、複雑さを増す一連のアラートのメトリクスやロジックの実装を示し、それらの役立つ点や短所を論じます。本章の例ではシンプルなリクエスト駆動型のサービスとPrometheusの構文(https://prometheus.io)を使いますが、ここでのアプローチは他のアラートのフレームワークにも適用できます。
サービスレベル指標(SLI)とエラーバジェットからアラートを生成するには、これら2つの要素を組み合わせて特定のルールにする方法が必要になります。目標は、重大なイベントについての通知を受けることです。重大なイベントとは、エラーバジェットの大きな割合を消費してしまうようなイベントです。
アラートの戦略を評価するにあたっては、以下を考慮してください。