4章インシデントのメトリクスを用いたSREの大規模な改善

Martin Check(Microsoft)

サービスで今後の追加を見込んでいるユーザーが数十人か、あるいは数十億人かに関係なく、サービスの規模が拡大しても信頼性を維持していくためには遅かれ早かれ、どの領域にどれほどの投資をするかが議論の対象となります。本章では、インシデントのメトリクスを重点的な投資に活用する方法について、Microsoft Azureのケーススタディを例に取って紹介します。ここに盛り込まれた教訓は、スタートアップからエンタープライズサービスさらにはクラウド規模まで、幅広いサービスに関するサービスリライアビリティ業務で私たちが学んできたものです。Azureは規模、成長、提供プロダクトの多様性がどれも極めて高いレベルにあり、信頼性の典型的なテーマを如実に炙り出すことから、非常に優れたケーススタディとなります。以下では、こうしたテーマについて分析および報告するためにデータと革新的な手法を活用する方法により、どのように改善が促進されたかを示します。

4.1 障害対策の好循環:それを計測しない場合は……

問題を管理する取り組みの例に漏れず、私たちはデータの検討から始めようとしました。ところが実際に取りかかってみると、データソース、サービステレメトリ、インシデント管理メトリクス、デプロイ用メトリクスなどが数千種類もあることが判明しました。実際、対象となるデータソースがあまりにも膨大だったため、問題に取り組むために検討すべきデータの種類と順序を決定するのは、一筋縄ではいきませんでした。業界のベストプラクティスを調べ、専門家にも相談した上で、改善の取り組みを支える基盤として私たちが最終的にたどり着いたのは、図4-1 ...

Get SREの探求 ―様々な企業におけるサイトリライアビリティエンジニアリングの導入と実践 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.