327
12
장
네트워크 디자인 재고
스케일 아웃 모델을 장려한다. 서버를 포함한 리프에 최대한 복잡한 기능을 수행하게 하고 상태
를 분산시켜서 확장 가능한 규모를 증가시킨다. 많은 박스에 상태가 분산되어 있으므로 박스 하
나의 장애 폭발 반경이 많은 상태를 가지고 있는 단일 거대 박스보다 훨씬 작다.
운영자가 관리할 박스의 수를 줄이기 위해 큰 스파인 스위치를 사면 자동으로 장애 폭발 반경이
증가하게 된다. 이런 점은 운영자가 때때로 고려하지 못하는 요인이다. 포트
512
개의 스파인 스
위치로는 랙
512
개의
2
계층 클로스 토폴로지를 구성할 수 있다. 하지만 이제 장애의 영향 범위
가 커졌다. 만약 이를 랙
64
개를 하나의 파드로 해서 파드
8
개가 있는
3
계층 클로스 네트워크
로 나눈다면 신뢰성이 있는 네트워크를 구축할 수 있을 것이다.
하이퍼스칼라 클라우드 제공자의 네트워크 장애는 매우 공개적이다. 하지만 거대한 규모에 비해
장애가 자주 일어나지 않으며 규모가 주는 복잡성이 장애의 원인이라고 언급되는 경우는 적다.
클라우드 네이티브 데이터 센터 네트워크의 또 다른 장애 처리 특성을 조금 더 파고들어 보자.
12.2.1
L
2 장애 모델과
L
3 장애 모델
L2
네트워크는 최근까지도 네트워크의 초석이었다.
L2
네트워크의 주요 문제는 아주 작은 규
모에서조차 신뢰할 수 없었다는 점이다.
STP
는 장애가 발생했을 때 이를 조용하게 잘 처리하는
것이 아니라 혼잡하게 만드는 근본적인 문제를 가지고 있다. 즉, 헬로 메시지를 기다리는 포트에
서
STP