Skip to Content
머신러닝 시스템 설계
book

머신러닝 시스템 설계

by 칩 후옌, 김대근, 김영민
March 2023
Beginner to intermediate
436 pages
9h 20m
Korean
Hanbit Media, Inc.
Content preview from 머신러닝 시스템 설계
184
머신러닝 시스템 설계
주의 사항: 캐글 대회의 데이터 누수
2020
년 리버풀 대학은 캐글에서 이온 스위칭 대회
19
를 개최했습니다. 과제는 각 시점에 열린 이
온 채널 개수를 식별하는 것이었습니다. 리버풀 대학은 훈련 데이터에서 테스트 데이터를 합성
했고, 일부 사람들은 리버스 엔지니어링 후 데이터 누수를 통해 테스트 레이블을 얻었습니다.
20
대회에서 우승한 두 팀은 데이터 누수를 이용하지 않고도 우승할 수 있었지만 데이터 누수를 이
용했습니다.
21
5.3.1 5.3.1
일반적인 원인일반적인 원인
이 절에서는 데이터 누수의 일반적인 원인과 이를 방지하는 방법을 살펴봅니다.
시간 대신 무작위로 시간적 상관 데이터를 분할한 경우
필자가 대학에서
ML
을 배울 때는 데이터를 훈련, 검증, 테스트 세트로 무작위로 분할하는 방
법을 배웠습니다.
ML
연구 논문에서 보통 데이터를 무작위로 분할하지만, 이는 데이터 누수의
원인이 되기도 합니다.
많은 경우 데이터는 시간 상관관계가 있으므로 데이터가 생성된 시간이 레이블 분포에 영향을
줍니다. 주식 가격처럼 상관관계가 뚜렷할 때도 있습니다. 이를 지나치게 단순화하자면, 유사
한 주식끼리는 가격이 함께 움직이는 경향이 있죠. 예를 들어, 오늘 기술주
90
%가 하락하면 나
머지 기술주
10
%도 하락할 가능성이 매우 높습니다. 미래 주가를 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

개발 7년차, 매니저 1일차

개발 7년차, 매니저 1일차

권원상, 한민주, 카미유 푸르니에
견고한 데이터 엔지니어링

견고한 데이터 엔지니어링

조 라이스, 맷 하우슬리
러닝 타입스크립트

러닝 타입스크립트

조시 골드버그

Publisher Resources

ISBN: 9791169210850