396
머신러닝 시스템 설계
10.5
구축 구축
vsvs
. 구매. 구매
이 장 도입부에서
ML
요구 사항에 적합한 인프라를 설정하기가 얼마나 어려운지 논의했습니
다. 보유한 애플리케이션과 이를 실행하는 규모에 따라 필요한 인프라가 달라집니다.
인프라에 얼마나 투자해야 하는지는 사내에서 구축하려는 항목과 구매하려는 항목에 따라 다
릅니다. 예를 들어, 완전 관리형 데이터브릭스 클러스터를 사용한다면 엔지니어가 한 명만 필
요할 겁니다. 반면에 자체 스파크 일래스틱 맵리듀스
Spark
Elastic
MapReduce
클러스터를 호스팅하
려면 다섯 명이 더 필요할 수 있죠.
극단적으로
ML
애플리케이션을 처음부터 끝까지 제공하는 회사에 모든
ML
유스 케이스를 아
웃소싱할 수 있습니다. 이때 유일하게 필요한 인프라는 데이터 이동, 즉 애플리케이션에서 공
급업체로 데이터를 넘기고, 공급업체의 예측값을 다시 사용자에게 전달하는 장치입니다. 나머
지 인프라는 모두 공급업체에서 관리합니다.
반대로, 민감 데이터를 다루는 등의 이유로 다른 회사에서 관리하는 서비스를 아예 사용하지
못하는 회사도 있습니다. 자체 데이터 센터가 있더라도 모든 인프라를 사내에 구축하고 유지
관리해야 할 수 있죠.
하지만 대부분의 회사는 두 극단적인 경우에 해당하지 않습니다. 중간에 속하는 회사들은 보통
일부 구성 요소는 다른 회사에 맡겨서 관리시키고 일부 구성 요소는 사내에서 직접 개발합니
다. 예를 들어, 컴퓨팅은
AWS
EC2
를 통해 관리하고 데이터 웨어하우스는 스노우플레이크를 ...