48
클라우드 네이티브를 위한 데이터 센터 네트워크 구축
1.3.3
장애 도메인
웹 규모 데이터 센터의 대규모 네트워크에서 장애는 가능성이 아니라 필연성이다. 따라서 선제
적인 장애 대응이 매우 중요하다.
데이터 센터 선구자들은
장애 반경
blast
radius
이라는 용어로 단일 장애가 어디까지 영향을 미치는
지 측정했다. 전파된 장애가 장애 지점에 더 가깝게 있을수록 고밀도 장애 도메인
failure
domain
이
며 장애 반경이 작다는 것을 의미한다.
액세스
-
애그
-
코어 모델에서는 저밀도 장애가 발생하는 경향이 있다. 즉, 넓은 장애 반경을 가
진다. 단일 링크 장애가 전체 가용 대역폭을 절반으로 줄이는 것이 그 예다. 단일 링크 장애로
대역폭의 절반을 잃는 것은 너무 과하며 특히 대규모 환경에서 이런 장애로 네트워크 일부가
단절될 수도 있다. 단일 애그리게이션 스위치 장애가 네트워크 전체 대역폭을 절반으로 떨어뜨
려 네트워크 전체 장애를 발생시킬 수도 있다. 더 심각한 것은 하나 남은 애그리게이션 스위치
가 모든 제어 평면을 책임지면서 이 역시 장애가 발생할 수 있다는 것이다. 즉, 이 네트워크 디
자인은 연속된 장애 전파로 전체 네트워크 장애가 발생할 가능성이 실제로 존재한다.
항상 발생할 수 있는 브로드캐스트 스톰의 위협은 제어 평면 처리에 과부하를 줘서 연속된 장
애 전파를 발생시킬 수 있는 또 다른 예다. 브로드캐스트 스톰이 단순히 단일 노드의 트래픽을
우회시키는 것을 넘어 노드의 과부하나 버그를 유발하여 전체 네트워크를 중단시킬 수도 ...