
184
머신러닝 시스템 설계
주의 사항: 캐글 대회의 데이터 누수
2020
년 리버풀 대학은 캐글에서 이온 스위칭 대회
19
를 개최했습니다. 과제는 각 시점에 열린 이
온 채널 개수를 식별하는 것이었습니다. 리버풀 대학은 훈련 데이터에서 테스트 데이터를 합성
했고, 일부 사람들은 리버스 엔지니어링 후 데이터 누수를 통해 테스트 레이블을 얻었습니다.
20
대회에서 우승한 두 팀은 데이터 누수를 이용하지 않고도 우승할 수 있었지만 데이터 누수를 이
용했습니다.
21
5.3.1 5.3.1
일반적인 원인일반적인 원인
이 절에서는 데이터 누수의 일반적인 원인과 이를 방지하는 방법을 살펴봅니다.
시간 대신 무작위로 시간적 상관 데이터를 분할한 경우
필자가 대학에서
ML
을 배울 때는 데이터를 훈련, 검증, 테스트 세트로 무작위로 분할하는 방
법을 배웠습니다.
ML
연구 논문에서 보통 데이터를 무작위로 분할하지만, 이는 데이터 누수의
원인이 되기도 합니다.
많은 경우 데이터는 시간 상관관계가 있으므로 데이터가 생성된 시간이 레이블 분포에 영향을
줍니다. 주식 가격처럼 상관관계가 뚜렷할 때도 있습니다. 이를 지나치게 단순화하자면, 유사
한 주식끼리는 가격이 함께 움직이는 경향이 있죠. 예를 들어, 오늘 기술주
90
%가 하락하면 나
머지 기술주
10
%도 하락할 가능성이 매우 높습니다. 미래 주가를 ...