第Ⅲ部実践

簡単に言えばSREが行うのは、サービスを稼働させること、そして最終的にはサービスの健全性に責任を持つことです。ここでのサービスとは、関連する一連のシステム群であり、内部であれ外部であれ、ユーザーのために運用されるものです。サービスを成功裏に運用するには、モニタリングシステムの開発、キャパシティプランニング、インシデント対応、サービス障害の根本原因が解決されていることの確認など、幅広い活動が必要になります。第Ⅲ部では、SREの日々の活動、すなわち大規模な分散コンピューティングのシステムの構築と運用における理論と実践を取り上げます。

サービスの健全性は、Abraham Maslowが人間の欲求を分類した方法[Mas43]と同様に、システムがサービスとして一通り機能するための最も基本的な必要条件から、自己実現を可能とし、問題に受動的に対応するのではなく、サービスの方向性を能動的にコントロールするような、より高いレベルの機能に至るまでの段階に分類できます。これを理解することはGoogleにおいてサービスを評価する上できわめて基本的なことですが、私たちの元同僚であるMikey Dickerson†1を含む大勢のGoogle SREが、2013年の終わりと2014年の初めにhealthcare.govの立ち上げ支援のため、まったく文化が異なるアメリカ政府に一時的に参加するまで明確にされていませんでした。すなわちMikeyたちには、システムの信頼性を向上させる方法を説明するための手段が必要だったのです。

本書では、図Ⅲ-1にある階層構造に従い、サービスを信頼性があるものにするための要素について最も基本的なものから高度なものまでを見ていきます。

図Ⅲ-1 サービスの信頼性の階層 ...

Get SRE サイトリライアビリティエンジニアリング ―Googleの信頼性を支えるエンジニアリングチーム now with O’Reilly online learning.

O’Reilly members experience live online training, plus books, videos, and digital content from 200+ publishers.