476
4
부
시스템 유지 보수
만일
ksplice
를 이용해 취약점을 수정할 수 없었다면 신속하게 긴급 롤아웃을 수행했을 것이
다. 하지만 이 경우 커널 취약점에 영향을 받은
tcp
_
collapse
_
ofo
_
queue
와
tcp
_
proune
_
ofo
_
queue
함수를 커널 연결을 이용해 처리할 수 있었다.
SRE
는 공격자가 프로덕션 환경에
영향을 주기 전에
ksplice
를 적용할 수 있었다. 롤아웃 절차는 이미 테스트 및 승인이 완료되
었으므로
SRE
는 신속하게
VP
의 승인을 받아 코드 변경 금지를 선언하고 패치를 적용할 수 있
었다.
16.8
마치며
재해 복구 테스트와 계획을 처음부터 만드는 방법을 고려 중이라면 가능한 방법이 너무 많아
부담스러울 수 있다. 하지만 이번 장에서 설명한 개념과 권장 사례는 소규모에도 적용이 가능
하다.
우선은 가장 중요한 시스템이나 가장 중요한 데이터부터 정하고 여기에 영향을 줄 다양한 재해
에 어떻게 대응할지를 생각하면 된다. 또한 서비스 없어 얼마나 오래 운영할 수 있는지 그리고
영향을 받는 사람의 수나 다른 시스템은 무엇인지 결정해야 한다.
중요한 부분을 위한 첫 단계를 성공적으로 구현했다면 견고한 재해 준비 전략으로 확대해 나가
면 된다. 문제가 시작되는 시발점을 찾아 방지하는 기본 전략부터 필연적으로 발생할 수밖에
없는 사태에 대응하는 방법까지 만들어 나가길 바란다.