13章SLOベースのアラートへの対応とデバッグ
前章では、SLOと、より効果的なアラートを出すためのSLOベースのモニタリングのアプローチを紹介しました。 この章では、アラートを実行可能かつデバッグ可能にするために、オブザーバビリティのデータがどのように使用されるかを詳しく検討します。 従来のモニタリングのデータやメトリクスを使用したSLOでは、根本的な問題を解決するためのガイダンスが得られないため、アクション可能ではないアラートが作られてしまいます。 これに併せてオブザーバビリティのデータをSLOに使用することで、より正確で、よりデバッグしやすいものになります。
オブザーバビリティの実践とは独立したものですが、 SLOを使ったアラートの駆動は、アラートのノイズを減らしつつアクション可能にする、実用的な手法です。 SLIは、サービスの顧客体験をビジネス上の目標に直接沿った方法で測定するように定義していきます。 エラーバジェットは、ビジネス上の利害関係者とエンジニアリングチームとの間で、明確な期待値を設定します。 エラーバジェットの バーンアラート により、チームは高い顧客満足度を確保し、 ビジネス目標との整合性を取り、 また、症状ベースのアラートのような不協和音を発生させることなく、過度なアラートの嵐が常態化するのを避けながら、 本番環境の問題に対して適切な対応を開始できるようになります。
この章では、エラーバジェットが果たす役割と、SLOを使ってアラートを発報するために利用可能なメカニズムについて検討します。 SLOエラーバジェットとは何か、どのように機能するか、SLOエラーバジェットが枯渇することを予測するためにどのような計算が利用できるのかを見ていき、 信頼性の高い計算を行うために、時間ベースのメトリクスではなく、イベントベースのオブザーバビリティデータを使用する理由についても説明します。 ...
Get オブザーバビリティ・エンジニアリング now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.