
296
머신러닝 시스템 설계
8.2.2 8.2.2
일반적인 데이터 분포 시프트일반적인 데이터 분포 시프트
학계에서는 잘 연구되지 않았지만 현실에서 모델 성능을 저하할 수 있는 몇 가지 변화 유형이
있습니다.
하나는 피처 변화
feature
change
입니다. 신규 피처가 추가되거나, 이전 피처가 제거되거나, 피처
값의 가능한 범위가 변한 경우입니다.
28
예를 들어, 모델이 ‘연령’ 피처에 연 단위를 사용하다가
이제는 월 단위를 사용한다면 해당 피처 값의 범위가 변하게 됩니다. 한번은 필자가 속한 팀에
서 파이프라인 버그로 인해 피처 값이 모두
NaN
(‘
not
a
number
’의 줄임말)이 돼 모델 성능
이 급락한 걸 발견한 적이 있습니다.
레이블 스키마 변화
label
schema
change
는
Y
값의 가능한 범위가 변하는 경우입니다. 레이블 시
프트의 경우
P
(
Y
)는 변하지만
P
(
X
|
Y
)는 그대로 유지됩니다. 반면 레이블 스키마가 변하면
P
(
Y
)와
P
(
X
|
Y
)가 모두 변하게 됩니다. 스키마는 데이터 구조를 설명하므로 특정 작업에 대
한 레이블 스키마는 해당 작업의 레이블 구조를 설명합니다. 예를 들어, {양성’:
0
, ‘음성’:
1
}과
같이 각 클래스를 정숫값에 대응시키는 딕셔너리는 스키마입니다.
회귀 작업의 경우 레이블 값의 가능한 범위가 변하면서 레이블 ...