132
머신러닝 시스템 설계
를 할당하고 모델을 디버깅하는 데 큰 도움이 됩니다. 예를 들어, 모델이 대부분 최근 획득한
데이터 샘플에서 문제를 일으킨다면 새로운 데이터를 어떻게 획득했는지 조사해야 합니다. 모
델 때문이 아니라 최근에 수집한 데이터에 잘못된 레이블이 비정상적으로 많아 문제가 발생하
는 경우가 종종 있습니다.
4.2.2 4.2.2
자연 레이블자연 레이블
수작업 레이블링이 유일한 레이블링 방법은 아닙니다. 자연적인 그라운드 트루스 레이블이 존
재한다면 작업이 훨씬 수월하죠. 자연 레이블이 있으면 모델 예측을 자동으로 평가하거나 시스
템상에서 부분적으로 평가할 수 있습니다. 예를 들어, 구글 지도에서 특정 경로의 도착 시간을
추정하는 모델이 바로 그런 사례입니다. 특정 경로를 선택해서 이동하면 목적지에 도착할 때쯤
구글 지도는 실제로 경로를 이동하는 데 소요된 시간을 알게 되고, 따라서 예상 도착 시간의 정
확도를 평가할 수 있습니다. 또 다른 예로는 주가 예측이 있습니다. 모델이
2
분 후의 주식 가격
을 예측한다면
2
분이 지난 후에 예측한 가격과 실제 가격을 비교해볼 수 있습니다.
자연 레이블이 존재하는 작업에는 대표적으로 추천 시스템이 있습니다. 추천 시스템의 목표는
사용자와 연관된 항목을 추천해주는 것입니다. 사용자가 추천받은 항목을 클릭하는지 여부는
해당 추천에 대한 피드백으로 간주됩니다. 클릭한 추천은 좋은 것으로 (즉, 레이블이 양성), 일
정 시간 (예:
10
분)이 지나도 클릭하지 않는 추천은 좋지 않은 것으로