Skip to Content
サイトリライアビリティワークブック ―SREの実践方法
book

サイトリライアビリティワークブック ―SREの実践方法

by Betsy Beyer, Niall Richard Murphy, David K. Rensin, Kent Kawahara, Stephen Thorne, 澤田 武男, 関根 達夫, 細川 一茂, 矢吹 大輔, 玉川 竜司
June 2020
Intermediate to advanced
516 pages
7h 4m
Japanese
O'Reilly Japan, Inc.
Content preview from サイトリライアビリティワークブック ―SREの実践方法

5章SLOに基づくアラート

執筆:Steven Thurgood

協力:Jess Frame、Anthony Lenton、Carmela Quinito、Anton Tolchanov、Nejc Trdin

本章では、SLOを重大なイベントが生じた際の対処可能なアラートに変える方法を説明します。『SRE サイトリライアビリティエンジニアリング』と本書は、どちらもSLOの実装について述べています。プラットフォームの信頼性を顧客が体験するように計測するSLOを持てば、オンコールエンジニアが対応すべきときを最も高い精度で示せると私たちは信じています。ここではそれらのSLOをアラートのルールに変換し、エラーバジェットを消費しすぎないうちに問題に対応する方法を示します。

本章の例では、複雑さを増す一連のアラートのメトリクスやロジックの実装を示し、それらの役立つ点や短所を論じます。本章の例ではシンプルなリクエスト駆動型のサービスとPrometheusの構文(https://prometheus.io)を使いますが、ここでのアプローチは他のアラートのフレームワークにも適用できます。

5.1 アラートについて考慮すべきこと

サービスレベル指標(SLI)とエラーバジェットからアラートを生成するには、これら2つの要素を組み合わせて特定のルールにする方法が必要になります。目標は、重大なイベントについての通知を受けることです。重大なイベントとは、エラーバジェットの大きな割合を消費してしまうようなイベントです。

アラートの戦略を評価するにあたっては、以下を考慮してください。

適合率(Precision)
検出されたイベントが重大であった比率です。すべてのアラートが重大なイベントに関連していれば、適合率は100%です。特に低トラフィックな期間においては、アラートは重大ではないイベントに対して敏感になり得るので注意が必要です(本章 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

Pythonではじめる機械学習 ―scikit-learnで学ぶ特徴量エンジニアリングと機械学習の基礎

Pythonではじめる機械学習 ―scikit-learnで学ぶ特徴量エンジニアリングと機械学習の基礎

Andreas C. Muller, Sarah Guido, 中田 秀基
プログラミングRust

プログラミングRust

Jim Blandy, Jason Orendorff, 中田 秀基
初めてのGraphQL ―Webサービスを作って学ぶ新世代API

初めてのGraphQL ―Webサービスを作って学ぶ新世代API

Eve Porcello, Alex Banks, 尾崎 沙耶, あんどうやすし

Publisher Resources

ISBN: 9784873119137Other