6章分散システムのモニタリング

執筆：Rob Ewaschuk

編集：Betsy Beyer

GoogleのSREチームには、モニタリング及びアラートのシステムをうまく構築するための基本原則とベストプラクティスがあります。本章では、アラート発生時に人間にページを送って割り込むべき問題、そしてページを送るほどではない問題への対処方法のガイドラインを示します。

6.1　定義

モニタリングに関連するあらゆるトピックを議論しようとすれば、一般的な用語定義が定まっていないことが問題になります。Googleの内部においてさえ、用語の使われ方には幅がありますが、以下のリストに最も一般的な解釈をまとめておきます。

モニタリング: システムに関するリアルタイム定量データの収集、処理、集計、表示を行うことです。扱うデータの例としては、クエリの回数と種類、エラーの回数と種類、処理時間、サーバーの生存期間などがあります。
ホワイトボックスモニタリング: システムの内部によって公開されているメトリクスに基づくモニタリングです。ログ、Java Virtual Machine Profiling Interfaceのようなインターフェース、内部的な統計情報を出力するHTTPハンドラなどが含まれます。
ブラックボックスモニタリング: ユーザーが目にする外部の振る舞いをテストします。
ダッシュボード: サービスの主要メトリクスのサマリビューを提供する、（通常はWebベースの）アプリケーションです。ダッシュボードはユーザーにとって最も重要なメトリクスを表示するようあらかじめ構築されていますが、フィルタ、セレクタなどを持っていることもあります。ダッシュボードは、チケットキューの長さ、優先度の高いバグのリスト、各担当部署の現在のオンコールエンジニア、直近のプッシュなどを表示することもあります。 ...

Get SRE サイトリライアビリティエンジニアリング ―Googleの信頼性を支えるエンジニアリングチーム now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.