3章リスクマネジメント

オペレーションの本質とはなんでしょうか。2章「サービスレベルマネジメント」で説明した通り、それは果たすべき約束、つまりSLOを遵守するための作業です。SLOをどのように定義し、監視し、日々オペレーションを改善していくかについてはすでに説明しました。本章で取りあげるのはリスクマネジメントです。リスクマネジメントとは、SLO違反の原因となる不確定要素をどのように扱うか、ということです。サービスを運用していくうえで、不確定要素をどのように発見し、その影響を見積もり、優先順位をつけて対処していくか。これはつまり、所有しているヒト、モノ、カネ、そしてテクノロジーといったリソースをどのように活用し、不確定要素がもたらす問題を解決していくかということでもあります。

完璧なマネジメントというものはありません。すべてのリスクを取り除こうとするのは風車に向かって突進するドン・キホーテのようなもので、結局は、リソースの無駄遣いに終わるでしょう。そうではなく、目指すのはリスクを適切に評価し、それを軽減する手法とその繰り返しの中で、リスクそのものの影響範囲を小さくすることです。そのためには、インシデントが発生するたびに、新しい技術を採用するたびに、継続してリスクを評価し、それを軽減することができるのか、考察していくことです。リスクによっては、組織が成長していくにつれ小さくなるものもあれば大きくなるものもあります。このサイクルは主に次の7つに分類することができます。

  • 潜在的な障害や脅威となるリスクを洗い出し、一覧を作成する。
  • 各リスクについて発生する可能性と発生時の影響度について評価する。
  • 発生する可能性と発生したときの結果をそれぞれ分類する。
  • 発生する可能性をどうやったら低くすることができるか、また、発生したときサービスに与える影響を軽減する方法について洗い出す。 ...

Get データベースリライアビリティエンジニアリング ―回復力のあるデータベースシステムの設計と運用 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.