5章Google DiRT:災害からの復旧テスト

Jason Cahoon

「希望は戦略ではない」 これは、Googleのサイトリライアビリティエンジニアリング(Site Reliability Engineering=SRE)チームの座右の銘で、カオスエンジニアリングの基本理念を見事に具体化するものです。システムは障害を許容するようエンジニアリングされているかもしれませんが、大規模環境で目に見える形で障害の条件をテストするまでは、常に期待と現実が一致しないリスクがあります。GoogleのDiRT(Disaster Recovery Testing)プログラムは、サイトリライアビリティエンジニア(Site Reliability Engineers=SREs)によって2006年に始められ、クリティカルな技術システムやビジネスプロセスに対して意図的に障害を引き起こし、リスクがまだ明らかにされていないものをあぶり出す目的がありました。DiRTプログラムに精通したエンジニアは、実際には緊急事態ではないときに本番環境における緊急事態を分析するとずっと容易になるという、重要な見解を打ち出しています。

災害テスト(disaster testing)は、障害に対してうまく対処できた場合にはシステムの回復力を証明し、適切に対処できたと言えない状況においては制御された方法で信頼性のリスクを露呈させることができます。制御されたインシデントの発生中に信頼性のリスクを表出させると、綿密な分析と先手をとった問題の緩和措置が行えるようになります。予期せぬ障害が発生した時のように、問題の深刻さと時間的なプレッシャーが次々と誤りを招き、不完全な情報に基づいてリスクの高い決断が迫られる状況下で問題が顕在化するのを待つことになるのとは対照的です。 ...

Get カオスエンジニアリング ―回復力のあるシステムの実践 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.