원인과 예방
어떤 상황이 실패로 이어질까?
실패를 줄이기 위해 무엇을 할 수 있을까?
예를 들어 사용량이 급증하면 서버의 디스크 공간이 부족해진다. 디스크 사용 패턴을 분석하고
디스크 크기를 확장하여 이 문제를 해결할 수 있으므로 사용 레벨을 높일 수 있다. 또한 사용
레벨을 지속적으로 분석하고 예측하는 자동화된 메커니즘을 구현하여 패턴이 변경될 경우 디
스크 공간을 선제적으로 추가할 수 있다. 추가 단계는 사용량이 증가함에 따라 디스크 용량을
자동으로 조정하는 것이다.
실패 모드
장애가 발생하면 어떻게 될까?
사람의 개입 없이 실패 피해를 줄이기 위해 무엇을 할 수 있을까?
예를 들어 지정된 서버에 디스크 공간이 부족하면 해당 서버에서 실행되는 애플리케이션이 트
랜잭션을 수락하지만 기록에는 실패할 수 있다. 이것은 상황을 악화시킬 수 있으므로 디스크에
기록할 수 없는 경우 트랜잭션 수락을 중지하도록 애플리케이션을 수정해야 한다. 많은 경우에
팀에서는 오류가 발생했을 때 실제로 어떤 일이 일어날지 알지 못한다. 이상적으로는 실패 모
드가 시스템을 완전한 작동 상태로 유지한다. 예를 들어 애플리케이션이 응답을 중지하면 로드
밸런서가 애플리케이션에 대한 트래픽 전달을 중지할 수 있다.
탐지
실패가 발생하면 어떻게 감지할까?
더 빨리 또는 미리 감지하기 위해 무엇을 할 수 있을까?
애플리케이션이 충돌했을 때
CEO
가 고객의 항의 전화를 받고 나서야 디스크 공간이 부족하다
는 것을 알게 될 수 있다. 애플리케이션이 충돌할 때 알림을 받는 것이 좋다. 또한 ...