381
10
장
클러스터와 작업 큐
라우팅 기능의
25
%가 멈추면서(대치되기는 했지만 그 속도가 느렸다) 전체적인 네트워크가
큰 압박을 받았다. 죽어버렸던 윈도우 클라이언트 노드들이 재시작하며 네트워크에 다시 합류
하려 시도하면서, 이미 과부하 상태인 시스템에 수많은 트래픽을 추가했다. 슈퍼노드에는 너무
많은 부하가 걸리면 백오프
back
-
off
하는 기능이 있었다. 그래서 트래픽이 폭증하자 스스로 종료
하기 시작했다.
24
시간 동안 스카이프를 거의 사용할 수 없었다. 복원 프로세스는 늘어난 트래픽을 감당할 수
있도록 구성한 ‘메가 - 슈퍼노드’를 수백 개 설정하는 일부터 시작했다. 그 후 수천 개를 더 추가
했다. 다음날이 돼서야 네트워크가 회복됐다.
이는 스카이프에게 엄청나게 당혹스러운 사건이었다. 스카이프는 그 후 며칠에 걸쳐 긴박히 피
해를 최소화하는 데 초점을 맞췄다. 음성 통화를 하려는 고객들은 다른 선택지를 찾아야만 했
으며, 이는 분명 경쟁자들에게 요긴한 마케팅 기회였을 것이다.
복잡도와 발생했던 장애의 확산 과정을 고려해보면, 이런 종류의 실패를 예측하고 대응 계획을
세우기는 어려웠을 것이다. 스카이프 네트워크의 모든 노드에 문제가 생기지 않았던 이유는 소
프트웨어 버전과 플랫폼이 달랐기 때문이다 (균일한 시스템보다는 비균일 네트워크를 사용할
때 신뢰성 측면에서 이점이 있다 ).
10.3
일반적인 클러스터 설계
일반적으로 어느 정도 비슷한 수준의 컴퓨터로 애드혹 지역 클러스터를 구축하는 것부터 시작
한다. 이런 클러스터에 오래된