126
2
부
초기 프로토타입 제작
샘플을 레이블링하면서 어떤 과정으로 결정을 내렸는지 확인해보세요. 이렇게 하면 모델에 유
용한 특성을 생성하고 트렌드를 찾아내는 데 도움이 됩니다.
4.3.4
데이터 트렌드
데이터를 레이블링하고 나면 일반적으로 트렌드를 읽을 수 있습니다. 일부는 유용한 정보 (짧
은 트윗이 긍정이나 부정으로 분류하기 쉽다는 경향)를 담고 있어 모델에 유익한 특성을 생성
하는 데 도움이 됩니다. 일부는 데이터의 수집 방식 때문에 상관관계가 없을 수도 있습니다.
수집한 프랑스어 트윗이 모두 부정적이라면 모델은 자동으로 프랑스어 트윗을 부정으로 분
류하게 됩니다. 더 폭넓고 대표성이 뛰어난 샘플에서 모델이 얼마나 부정확할지 판단해야 합
니다.
이런 종류의 문제가 생기더라도 절망하지 마세요! 모델을 만들기 시작하기 전에 이런 종류의
트렌드를 발견하는 것이 중요합니다. 왜냐하면 훈련 데이터에서 모델 성능을 인공적으로 부풀
린 뒤 제품에 모델을 투입하면 잘 동작하지 않기 때문입니다.
편향된 샘플을 다루는 가장 좋은 방법은 추가적인 데이터를 모아 훈련 세트의 대표성을 높이는
겁니다. 모델이 편향되는 것을 피하기 위해 훈련 데이터에서 편향된 특성을 제거할 수도 있습
니다. 하지만 실전에서는 모델이 종종 다른 특성과의 상관관계를 활용해 편향을 일으키기 때문
에 효과적이지 않을 수 있습니다 (
8
장 참조 ).
어떤 트렌드를 발견했다면 이를 활용할 차례입니다. 대부분 두 가지 방법 중 하나를 사용합니
다. 트렌드가 잘 드러나는 특성을 만들거나 이를 ...