
29
1
장
머신러닝에서 데이터로 의사 결정을 내리는 방법
데이터까지도 예측을 일반화하도록 해 줍니다.
또한 모든
ML
모델은 평가되어야 합니다. 따라서 검증 데이터 샘플(검증 데이터셋)을 별도로
보유해야 합니다.
검증 데이터셋
은 모델이 학습할 때 보지 못한 새로운 데이터까지 얼마나 일반
화가 잘 되었는지를 측정하는 데 사용합니다. 학습 오차는 학습된 데이터에 따라 모델이 데이
터에 얼마나 잘 맞는지 판단하는 데 사용합니다.
모델 평가 지표는 문제나 비즈니스 목표를 잘 표현하도록 정의해야 합니다. 모델 튜닝은 평가
지표로 측정된 모델의 성능을 한층 더 끌어올립니다. 가령
12
월의 우산 판매량 예측은 얼마나
정확했을까요? 일반화할 수 있는 결과였을까요? 만족스러운 성과는 비즈니스 요구사항에 따
라 결정되어야 하며, 실제
ML
작업을 시작하기 전에 모든 이해관계자 간의 합의가 이루어져야
만 합니다.
NOTE
검증 데이터셋은 모델의 과대적합 여부를 확인할 때도 사용합니다. 과대적합은
8
장에서 다룹
니다.
1.2.8
모델 테스트
모델을 테스트하지 않고는 일반화의 가능성을 알 수 없습니다. 학습 데이터셋으로 모델을 데이
터에 적합시키고, 검증 데이터셋으로 모델의 정확도를 개선한 다음, 학습 때는 보지 못한 데이
터로 모델을 테스트해 봐야 합니다. 테스트 데이터는 모델의 성능을 ...