86
머신러닝 시스템 설계
프로덕션에서는 일반적으로 데이터를 여러 프로세스 및 서비스에 걸쳐 처리합니다. 예컨대 피
처 엔지니어링 서비스와 예측 서비스가 있다고 합시다. 피처 엔지니어링 서비스는 원시 데이터
에서 피처를 계산하고 예측 서비스는 그 피처를 기반으로 예측값을 생성한다면, 피처 엔지니어
링 서비스에서 계산된 피처를 예측 서비스로 전달해야 하죠.
3
.
5
절에서는 프로세스 간에 데이
터를 전달하는 다양한 모드를 알아봅니다.
다양한 데이터 전달 모드를 알아보면서 데이터 스토리지 엔진에서 사용하는 과거 데이터와 실
시간 전송에서 사용하는 스트리밍 데이터라는 두 가지 데이터 유형을 살펴봅니다. 각 유형에
필요한 처리 패러다임은
3
.
6
절 ‘배치 처리
vs
. 스트림 처리’에서 다룹니다.
프로덕션용
ML
시스템을 구축하려면 증가하는 데이터를 수집, 처리, 저장, 검색 및 처리하는
방법을 숙지해야 합니다. 데이터 시스템에 이미 익숙하다면
4
장으로 바로 넘어가도 좋습니다.
4
장에서는 훈련 데이터를 생성하기 위해 레이블을 샘플링하고 생성하는 방법을 자세히 알아봅
니다. 시스템 관점의 데이터 엔지니어링을 더 자세히 알고 싶다면 마틴 클레프만의 『데이터 중
심 애플리케이션 설계』를 읽어보기 바랍니다.
3.1
데이터 소스 데이터 소스
ML
시스템은 다양한 소스에서 온 데이터로 작동합니다. 데이터마다 특성, 목적, 처리 방법이
다르며 데이터 소스를 파악하면 데이터를 보다 효율적으로 사용하는 데 도움이 됩니다. 이 절
에서는 프로덕션 데이터에 익숙하지 않은 사용자에게 ...