4章モニタリング
執筆:Jess Frame、Anthony Lenton、Steven Thurgood、Anton Tolchanov、Nejc Trdin
協力:Carmela Quinito
モニタリングには、メトリクス、テキストのロギング、構造化されたイベントのロギング、分散トレース、イベントのイントロスペクションを含む多くの種類のデータがあります。これらのアプローチはすべてそれ自身役立つものですが、本章では主にメトリクスと構造化ロギングを取り上げます。私たちの経験では、これら2つのデータソースがSREの基礎的なモニタリングの要求には最も適しています。
最も基本的なレベルでは、モニタリングはシステムを可視化するものです。これは何か問題が起きたときに、サービスの健全性の判定とサービスの診断にとって中核的な要求となります。最初のSREの書籍『SRE サイトリライアビリティエンジニアリング』の「6章 分散システムのモニタリング」で基本的なモニタリングの定義を示し、SREが担当するシステムを以下の目的でモニタリングすることを説明しました。
- 注意が必要な条件でのアラート
- それらの問題の調査と診断
- システムに関する情報をビジュアルで表示
- 長期的な計画のために、リソースの利用やサービスの健全性に関するトレンドについて知見を得る
- 変更の前後、あるいは実験における2つのグループ間でのシステムの振る舞いの比較
モニタリングシステムの選択や構築の際、これらのユースケースの相対的な重要性をもとに取捨選択が必要になるかもしれません。
本章ではGoogleがどのようにモニタリングシステムを管理しているかを論じ、モニタリングシステムの選択や運用に際して生じうる疑問に対するガイドラインを示します。 ...
Get サイトリライアビリティワークブック ―SREの実践方法 now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.