12章サービスレベル目標の信頼性向上への活用
オブザーバビリティと従来のモニタリングは共存できますが、オブザーバビリティを利用することで、より洗練された補完的なモニタリング手法を使える可能性があります。 次の2つの章では、オブザーバビリティとサービスレベル目標(SLO)を一緒に実践することで、システムの信頼性をどのように向上させられるかを説明します。
この章では、従来のしきい値ベースのモニタリングアプローチがチームにもたらす一般的な問題、分散システムがこれらの問題を悪化させること、そしてモニタリングにSLOベースのアプローチを使用することでこれらの問題を解決する方法について学びます。 最後に、従来のしきい値ベースのアラートをSLOに置き換えた実例を紹介します。 そして 13章 では、オブザーバビリティがSLOベースのアラートをいかにアクション可能かつデバッグ可能にするかを検討します。
まずは、モニタリングとアラートの役割と、これまでのアプローチを理解することから始めましょう。
12.1 従来のモニタリング手法では危険なアラート疲れが発生する
モニタリングベースのアプローチでは、アラートはしばしば測定がもっとも簡単なものを測定します。 メトリクスは、サービスの基礎となるプロセスの動作不良やトラブルの前兆を示すような単純なシステム状態を追跡するために使用されます。 これらの状態は、たとえば、CPUが80%以上、利用可能なメモリが10%以下、ディスクスペースがほぼ満杯、スレッドが x 以上実行されている場合、または基礎となるシステム状態の他の単純化された測定値のセットでアラートをトリガーするかもしれません。
このような単純化された「潜在的な原因」の測定は簡単ですが、それに基づいて行動するための意味のあるアラートを生成することはできません。 ...
Get オブザーバビリティ・エンジニアリング now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.