Skip to Content
머신러닝 시스템 설계
book

머신러닝 시스템 설계

by 칩 후옌, 김대근, 김영민
March 2023
Beginner to intermediate
436 pages
9h 20m
Korean
Hanbit Media, Inc.
Content preview from 머신러닝 시스템 설계
296
머신러닝 시스템 설계
8.2.2 8.2.2
일반적인 데이터 분포 시프트일반적인 데이터 분포 시프트
학계에서는 잘 연구되지 않았지만 현실에서 모델 성능을 저하할 수 있는 몇 가지 변화 유형이
있습니다.
하나는 피처 변화
feature
change
입니다. 신규 피처가 추가되거나, 이전 피처가 제거되거나, 피처
값의 가능한 범위가 변한 경우입니다.
28
예를 들어, 모델이 ‘연령’ 피처에 연 단위를 사용하다가
이제는 월 단위를 사용한다면 해당 피처 값의 범위가 변하게 됩니다. 한번은 필자가 속한 팀에
서 파이프라인 버그로 인해 피처 값이 모두
NaN
(‘
not
a
number
’의 줄임말)이 돼 모델 성능
이 급락한 걸 발견한 적이 있습니다.
레이블 스키마 변화
label
schema
change
Y
값의 가능한 범위가 변하는 경우입니다. 레이블 시
프트의 경우
P
(
Y
)는 변하지만
P
(
X
|
Y
)는 그대로 유지됩니다. 반면 레이블 스키마가 변하면
P
(
Y
)
P
(
X
|
Y
)가 모두 변하게 됩니다. 스키마는 데이터 구조를 설명하므로 특정 작업에 대
한 레이블 스키마는 해당 작업의 레이블 구조를 설명합니다. 예를 들어, {양성’:
0
, ‘음성’:
1
}과
같이 각 클래스를 정숫값에 대응시키는 딕셔너리는 스키마입니다.
회귀 작업의 경우 레이블 값의 가능한 범위가 변하면서 레이블 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

개발 7년차, 매니저 1일차

개발 7년차, 매니저 1일차

권원상, 한민주, 카미유 푸르니에
견고한 데이터 엔지니어링

견고한 데이터 엔지니어링

조 라이스, 맷 하우슬리
러닝 타입스크립트

러닝 타입스크립트

조시 골드버그

Publisher Resources

ISBN: 9791169210850