第5章耐障害性と大惨事対応
本番対応のマイクロサービスは耐障害性があり、大災害、大惨事(カタストロフィ)にも耐えられるように準備できています。マイクロサービスは障害を起こし、障害はたびたび起こります。起こる可能性のある障害シナリオは、マイクロサービスの生涯のどこかの時点で必ず起こります。マイクロサービスエコシステム全体を通じて可用性を保証するためには、障害対策のための綿密な計画、大惨事に対する備えが必要であり、リアルタイムで本番マイクロサービスを障害に追い込み、障害からグレースフルに回復できることを確かめる必要があります。
この章では、単一障害点を作らないようにすること、大惨事や障害の一般的なシナリオ、障害の検出と修正の方法、さまざまな種類の回復性テストの整備、障害が起こったときの組織レベルでのインシデント、機能停止処理の方法について説明します。
5.1 耐障害性のあるマイクロサービスを構築するための原則
大規模分散システムを構築したときの現実は、個別のコンポーネントが障害を起こす危険性をはらみ、実際に障害を起こし、障害をたびたび起こすということです。この法則から逃れられるマイクロサービスエコシステムはありません。考えられる障害シナリオは、マイクロサービスの生涯のどこかの時点で必ず発生します。そして、これらの障害は、マイクロサービスエコシステムの中の複雑な依存関係の連鎖によって悪化します。依存関係の連鎖に含まれる1つのサービスが障害を起こすと、上流にあるすべてのクライアントが影響を受け、システム全体のエンドツーエンドの可用性が損なわれてしまいます。
大惨事的な障害を緩和し、システム全体の可用性が損なわれるのを防ぐためには、エコシステムに含まれるすべてのマイクロサービスを耐障害性 ...
Get プロダクションレディマイクロサービス ―運用に強い本番対応システムの実装と標準化 now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.