
122
머신러닝 시스템 설계
이러한 성질은
8
.
2
절 ‘데이터 분포 시프트’에서 다룹니다.
ML
시스템 개발 과정에서 훈련 데이
터 생성은 다른 단계와 마찬가지로 반복 프로세스입니다. 모델이 프로젝트 수명 주기를 거치면
서 개선된다면 훈련 데이터 또한 개선될 가능성이 높습니다.
내용을 진행하기에 앞서 중요한 사실을 한 번 더 상기합시다. 데이터는 잠재적인 편향으로 가
득합니다. 편향이 발생하는 원인은 다양하며 수집, 샘플링, 레이블링 과정에서 발생하기도 합
니다. 과거 데이터는 사람의 편향을 내포할 수 있고 해당 데이터로 훈련한
ML
모델은 편향이
더 공고해지도록 할 수 있습니다. 그러니 데이터를 사용하되 너무 신뢰하지 마세요!
4.1
샘플링 샘플링
샘플링은
ML
워크플로에서 핵심임에도 안타깝게도 일반적인
ML
프로세스에서 그 중요성을
종종 간과하곤 합니다. 샘플링은
ML
프로젝트 수명 주기 내 여러 단계에서 이뤄집니다. 예를
들어, 가용한 전체 실데이터에서 훈련 데이터를 생성하기 위한 샘플링, 임의의 데이터셋을 훈
련, 검증 및 테스트 목적으로 분할하기 위한 샘플링이 있으며, 모니터링 목적으로
ML
시스템
내 발생 가능한 전체 이벤트에서 샘플링을 하기도 합니다. 이 절에서는 훈련 데이터를 생성하
기 위한 샘플링 방법에 초점을 둡니다. 이러한 샘플링 방법은
ML