5章SLOに基づくアラート

執筆:Steven Thurgood

協力:Jess Frame、Anthony Lenton、Carmela Quinito、Anton Tolchanov、Nejc Trdin

本章では、SLOを重大なイベントが生じた際の対処可能なアラートに変える方法を説明します。『SRE サイトリライアビリティエンジニアリング』と本書は、どちらもSLOの実装について述べています。プラットフォームの信頼性を顧客が体験するように計測するSLOを持てば、オンコールエンジニアが対応すべきときを最も高い精度で示せると私たちは信じています。ここではそれらのSLOをアラートのルールに変換し、エラーバジェットを消費しすぎないうちに問題に対応する方法を示します。

本章の例では、複雑さを増す一連のアラートのメトリクスやロジックの実装を示し、それらの役立つ点や短所を論じます。本章の例ではシンプルなリクエスト駆動型のサービスとPrometheusの構文(https://prometheus.io)を使いますが、ここでのアプローチは他のアラートのフレームワークにも適用できます。

5.1 アラートについて考慮すべきこと

サービスレベル指標(SLI)とエラーバジェットからアラートを生成するには、これら2つの要素を組み合わせて特定のルールにする方法が必要になります。目標は、重大なイベントについての通知を受けることです。重大なイベントとは、エラーバジェットの大きな割合を消費してしまうようなイベントです。

アラートの戦略を評価するにあたっては、以下を考慮してください。

適合率(Precision)
検出されたイベントが重大であった比率です。すべてのアラートが重大なイベントに関連していれば、適合率は100%です。特に低トラフィックな期間においては、アラートは重大ではないイベントに対して敏感になり得るので注意が必要です(本章 ...

Get サイトリライアビリティワークブック ―SREの実践方法 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.