
299
9
장
비지도 학습
오늘날 대부분의 머신러닝 애플리케이션이 지도 학습 기반이지만 (그래서 대부분 투자를 받는
것도 지도 학습입니다), 사용할 수 있는 데이터는 대부분 레이블이 없습니다. 즉 입력 특성
X
는 있지만 레이블
y
는 없습니다. 컴퓨터 과학자 얀 르쿤이 한 말이 유명합니다. “지능이 케이크
라면 비지도 학습은 케이크의 빵이고, 지도 학습은 케이크 위의 크림이고, 강화 학습은 케이크
위의 체리입니다.” 다른 말로 하면 이제 겨우 발을 담그기 시작한 비지도 학습에 큰 잠재력이
있다는 뜻입니다.
제조 라인에서 제품의 사진을 받아 결함이 있는 제품을 감지하는 시스템을 만든다고 가정해봅
시다. 자동으로 사진을 찍는 시스템을 만드는 것은 쉬우니 매일 수천 장의 사진을 얻을 수 있을
것입니다. 몇 주 만에 아주 큰 데이터셋을 만들 수 있습니다. 하지만 잠깐만요. 여기에는 레이
블이 없습니다! 제품에 결함이 있는지 아닌지 판단하는 이진 분류기를 만들려면 모든 사진마다
‘결함’ 또는 ‘정상’이라고 레이블을 부여해야 합니다. 일반적으로는 사람이 이를 모두 수동으로
처리해야 합니다. 이 작업은 시간이 오래 걸리고 비용이 많이 들며 지루하기까지 합니다. 그래
서 보통 전체 사진 중 일부분만 작업하고 레이블된 데이터셋은 매우 작습니다. 당연히 분류기
성능은 좋지 못할 ...