
291
8
장
데이터 분포 시프트와 모니터링
이것은 단순한 예시이며 퇴행성 피드백 루프를 방지하기에 충분하지 않을 수 있습니다. 보다
정교한 해결 방법은 두 가지 모델을 사용하는 것입니다. 첫 번째 모델은 추천이 보이는 위치를
고려해 사용자가 추천을 살펴보고 선택을 고려할 확률을 예측합니다. 그리고 두 번째 모델은
사용자가 살펴보고 선택을 고려한 항목을 최종적으로 클릭할 확률을 예측합니다. 두 번째 모델
은 위치와 전혀 관련이 없습니다.
8.2
데이터 분포 시프트 데이터 분포 시프트
이전 절에서
ML
시스템 장애의 일반적인 원인을 논의했습니다. 이 절에서는 데이터 분포 시프
트, 줄여서 데이터 시프트라고 부르는 보다 까다로운 장애 원인을 다룹니다. 데이터 분포 시프트
는 지도 학습에서 모델이 동작하는 데이터가 시간에 따라 변하는 현상으로, 이에 따라 모델 예측
도 시간이 지날수록 덜 정확해집니다. 모델이 훈련된 데이터의 분포를
원본원본
분포분포
source
distribution
라
고 하며 모델이 추론을 실행하는 데이터의 분포를
대상대상
분포분포
target
distribution
라고 합니다.
데이터 분포 시프트에 대한 논의는 최근 몇 년 사이
ML
도입이 증가하면서 보편화됐지만, 데
이터로 학습한 시스템에서의 데이터 분포 시프트는 이미
1986
년에 연구됐습니다. ...