June 2020
Intermediate to advanced
516 pages
7h 4m
Japanese
執筆:Jess Frame、Anthony Lenton、Steven Thurgood、Anton Tolchanov、Nejc Trdin
協力:Carmela Quinito
モニタリングには、メトリクス、テキストのロギング、構造化されたイベントのロギング、分散トレース、イベントのイントロスペクションを含む多くの種類のデータがあります。これらのアプローチはすべてそれ自身役立つものですが、本章では主にメトリクスと構造化ロギングを取り上げます。私たちの経験では、これら2つのデータソースがSREの基礎的なモニタリングの要求には最も適しています。
最も基本的なレベルでは、モニタリングはシステムを可視化するものです。これは何か問題が起きたときに、サービスの健全性の判定とサービスの診断にとって中核的な要求となります。最初のSREの書籍『SRE サイトリライアビリティエンジニアリング』の「6章 分散システムのモニタリング」で基本的なモニタリングの定義を示し、SREが担当するシステムを以下の目的でモニタリングすることを説明しました。
モニタリングシステムの選択や構築の際、これらのユースケースの相対的な重要性をもとに取捨選択が必要になるかもしれません。
本章ではGoogleがどのようにモニタリングシステムを管理しているかを論じ、モニタリングシステムの選択や運用に際して生じうる疑問に対するガイドラインを示します。 ...