항상 더 빠르다. 분산 훈련이 불가피한 유일한 경우는 모델이 가장 큰 머신에 맞지 않을 때
다. 그럼에도 분산 훈련이 반드시 필요하다는 확신이 생기면 아키텍처를 이해하는 것이 중요
하다.
[그림
14
.
2
]는 분산형 텐서플로 아키텍처다. 이 그림을 보면 모델과 파라미터가 어떻게 분산
되는지 알 수 있다.
그림
14.2
분산 텐서플로 아키텍처
마스터
파라미터
서버
1
워커워커워커워커
CPUCPUGPUGPUCPUGPUGPUGPU
파라미터
서버
N
14.3.3
리소스 제약조건
머신러닝 워크로드는 클러스터의 모든 부분에 매우 특정한 구성을 필요로 한다. 리소스는 보
통 훈련 단계에서 집중적으로 소모되는데, 조금 전 언급했듯이 머신러닝 알고리즘 훈련은 대
부분 배치성 워크로드임을 상기하자. 따라서 시작 시간과 완료 시간이 있다. 훈련을 마치는
시간은 모델 훈련에 필요한 리소스를 얼마나 신속하게 제공하느냐에 따라 달라진다. 아무래
도 리소스를 늘리면 훈련 잡이 더 빨리 끝나겠지만, 스케일링 자체는 늘 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month, and much more.