
129
4
장
훈련 데이터
물었습니다. 그러자 카르파티는 “엔지니어링 팀은 얼마나 오랫동안 필요한데요?”라며 대꾸했
죠. 데이터 레이블링은 많은 프로덕션
ML
팀에서 보조 작업이 아닌 핵심 업무로 자리 잡았습
니다.
이 절에서는 데이터 레이블을 얻는 문제를 다룹니다. 우선, 레이블링 하면 데이터 과학자에게
가장 먼저 떠오르는 수작업 레이블링을 알아봅니다. 그다음에는 자연 레이블이 있는 상황, 즉
사람의 어노테이션 없이 시스템에서 레이블을 유추할 수 있는 상황을 논의합니다. 이어서 자연
레이블과 수작업 레이블이 부족할 때 무엇을 해야 할지 알아봅니다.
4.2.1 4.2.1
수작업 레이블수작업 레이블
프로덕션 환경에서 데이터로 작업을 해봤다면 뼈저리게 느낄 겁니다. 데이터에 대해 수작업 레
이블을 획득하는 일은 여러 이유로 어렵다는 점 말입니다. 첫째, 데이터를 수작업으로 레이블
링하는 일은 비용이 큽니다. 도메인 전문가가 필요한 경우 특히 그렇습니다. 댓글이 스팸인지
판단하려면 크라우드소싱 플랫폼에서 어노테이터
20
명을 찾아
15
분 동안 데이터 레이블링을
어떻게 해야 하는지 가르치면 됩니다. 하지만 흉부 엑스레이에 레이블을 지정하려면 면허가 있
는 방사선 전문의를 찾아야 하는데, 전문의를 고용하면 시간 제약과 큰 비용이 따르죠.
둘째, 수작업 레이블링은 데이터 개인 ...