9章SLIとSLOの確率と統計

Toby Burress、Jaime Woo

これまでの各章では、意味のあるSLIをいくつか特定し、利害関係者を説得してまとめ上げ、十分に配慮したSLOを作成してきました。では、目標を設定するためのデータをシステムから収集したら、それで終わりでしょうか？これまでに見てきたように、SLIの計測時には、複数の分析と解釈を可能にするデータを確保する必要があります。データは、それ自体では情報を与えてはくれません。それをどのように分析するかが、有用性の鍵になります。そのうえ、システムは急速に変化します。1度設定したSLOも、システムの進化に伴って変化する可能性があります。将来を見通せない状況では、どのように適切なSLOを決定すれば良いのでしょうか。

この章では全体を通して、収集するデータの解釈について検討します。信頼性にはコストがかかります。どの程度の信頼性が必要であるかを理解するのは、リソースを最大限に有効活用するためにも重要です。分析が不正確だったとしても、苦労を重ねたすべての作業が無駄になるわけではありませんが、自分が達成したいことを結果に活かせないことは確かです。データの解釈を誤ると、不必要なアラートを発行させる可能性があり、さらに不都合なことには、SLOに違反して顧客の不満につながる根本的な問題を、見過ごす場合もあります。

この章では、SLIとSLOを実施する際に生じる以下の2つの難題を取り上げます。

SLOがどのようにあるべきかを理解すること
SLIの値を計算すること

前者の問題が出現するのは、たとえば、新しいサービスが開始されようとしていて、サービスの所有者が提供することを期待できるSLOの理論上の最大値を把握する必要があるときです。実行時の重要な依存対象が99%の可用性しか提供していない場合には、欠陥箇所の周囲のアーキテクチャを注意深く構成しないと、99.9%の可用性でサービスを実行できません。 ...

Get SLO サービスレベル目標 ―SLI、SLO、エラーバジェット導入の実践ガイド now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.

Start your free trial

SLO サービスレベル目標 ―SLI、SLO、エラーバジェット導入の実践ガイド by Alex Hidalgo, 山口能迪, 成田昇司

9章SLIとSLOの確率と統計

Don’t leave empty-handed

It’s yours, free.

Check it out now on O’Reilly