8章SLOの監視とアラート
Niall Murphy
これまでの各章では、ユーザーについて考慮することをサポートし、多様なチームがどう作業を行うかを決定し、信頼性と機能のリリース速度のバランスをとることに、いかにSLOが有効であるかを説明してきました。さらに、SLOの設定とSLOによって行うことの選択について検討し、エラーバジェットとエラーバジェットを使い果たしたときに組織がどのように対応できるかを検討し、試してみる余地のあるエラーバジェットが残っている場合に何ができるかを説明しました。
この章では、SLOの実装の核心に迫るトピックを取り上げます。それは監視であり、特にアラートです。これは複雑なトピックなので、最初にいくつかの項目について説明します。しかし読者の中にはすでにそれらを理解している人もいるかもしれません。そうであれば、ここは飛ばして「実行方法」の節に進んでください。動機付けに関する節には、SLOの監視やアラートについて他の人々を説得するときに役立つ題材があります。そこには目を通しておくことをおすすめします。
複雑なトピックですが、良い知らせもあります。それは、SLOのアラートが、今日の本番システムの管理においてもっとも将来性のある開発対象の1つであることです。その将来性とは、各チームが体験する従来型アラートの多くの混乱、ノイズ、および無益さを取り除き、かわりに保守管理を行いやすい何かを導入することです。これを可能にするには、アラートについての考え方を本質的に変える必要があります。
8.1 動機:SLOアラートとは何か、そしてなぜそれを実行すべきなのか?
この質問には、数通りの答え方ができます。それは、これまでに監視を行ったことがあるかや、既存の監視コーパス(一連のモニター、ルールなど)をすでに持っているかどうかによって答えが変わるからです。 ...
Get SLO サービスレベル目標 ―SLI、SLO、エラーバジェット導入の実践ガイド now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.