9章SLIとSLOの確率と統計

Toby Burress、Jaime Woo

これまでの各章では、意味のあるSLIをいくつか特定し、利害関係者を説得してまとめ上げ、十分に配慮したSLOを作成してきました。では、目標を設定するためのデータをシステムから収集したら、それで終わりでしょうか? これまでに見てきたように、SLIの計測時には、複数の分析と解釈を可能にするデータを確保する必要があります。データは、それ自体では情報を与えてはくれません。それをどのように分析するかが、有用性の鍵になります。そのうえ、システムは急速に変化します。1度設定したSLOも、システムの進化に伴って変化する可能性があります。将来を見通せない状況では、どのように適切なSLOを決定すれば良いのでしょうか。

この章では全体を通して、収集するデータの解釈について検討します。信頼性にはコストがかかります。どの程度の信頼性が必要であるかを理解するのは、リソースを最大限に有効活用するためにも重要です。分析が不正確だったとしても、苦労を重ねたすべての作業が無駄になるわけではありませんが、自分が達成したいことを結果に活かせないことは確かです。データの解釈を誤ると、不必要なアラートを発行させる可能性があり、さらに不都合なことには、SLOに違反して顧客の不満につながる根本的な問題を、見過ごす場合もあります。

この章では、SLIとSLOを実施する際に生じる以下の2つの難題を取り上げます。

  • SLOがどのようにあるべきかを理解すること
  • SLIの値を計算すること

前者の問題が出現するのは、たとえば、新しいサービスが開始されようとしていて、サービスの所有者が提供することを期待できるSLOの理論上の最大値を把握する必要があるときです。実行時の重要な依存対象が99%の可用性しか提供していない場合には、欠陥箇所の周囲のアーキテクチャを注意深く構成しないと、99.9%の可用性でサービスを実行できません。 ...

Get SLO サービスレベル目標 ―SLI、SLO、エラーバジェット導入の実践ガイド now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.