192
3
부
모델 반복
6.3
훈련 디버깅: 모델 학습하기
파이프라인을 테스트하고 하나의 샘플에서 동작하는지 검증했다면 몇 가지 사실을 알 수 있습
니다. 이 파이프라인은 데이터를 받아 성공적으로 변환합니다. 그다음 이 데이터를 모델에 적
절한 포맷으로 전달합니다. 마지막으로 몇 개의 샘플을 받은 모델이 학습한 뒤 올바른 결과를
출력합니다.
이제 모델이 몇 개 이상의 샘플을 처리하며 훈련 세트에서 학습할 수 있는지 확인할 차례입니
다. 다음 절의 초점은 많은 샘플에서 모델을 훈련하고
전체 훈련 데이터를 모델이 학습할 수 있
도록 만드는 것
입니다.
이렇게 하기 위해 전체 훈련 세트를 모델에 전달하여 성능을 측정합니다. 대용량의 데이터를
다룬다면 모델에 주입하는 데이터의 양을 점진적으로 늘리면서 성능을 확인할 수 있습니다.
훈련 세트의 크기를 점진적으로 늘리면 데이터 추가가 모델 성능에 미치는 영향을 측정할 수
있다는 장점이 있습니다. 전체 데이터셋을 사용하기 전에 수백 개의 샘플로 시작해서 수천 개
로 늘려보세요 (데이터셋에 있는 샘플이 수천 개보다 적다면 그냥 바로 전체 데이터를 전달해
도 괜찮습니다 ).
각 단계에서 모델을 훈련시킨 다음,
동일한 데이터
에서 성능을 평가합니다. 모델이 선택한 데이
터를 학습할 수 있는 능력이 된다면 훈련 데이터에 대한 성능은 비교적 안정되어야 합니다.
모델 성능을 나타내기 위해 받아들일 수 있는 오차 수준을 추정하는 것이 좋습니다. 예를 들어
몇 개의 샘플을 직접 레이블링하고 진짜 레이블과 결과를 비교해봅니다. ...