
141
4
장
훈련 데이터
하는 것입니다. 트위터 해시태그 주제 분류 작업에서 해시태그 사이의 유사성을 사용하는 것
이 좋은 예입니다. 일단 해시태그 ‘#
AI
’에 ‘컴퓨터 과학’이라는 레이블을 지정합니다. 같은 트
윗이나 프로필에 함께 사용된 해시태그끼리 주제가 같다고 가정한다면, [그림
4
-
6
]처럼
MIT
CSAIL
프로필에 사용된 해시태그 ‘#
ml
’과 ‘#
bigdata
’도 ‘컴퓨터 과학’이라는 레이블을 지정할
수 있죠.
그림
4-6
‘#
ml
’과 ‘#
bigdata
’는 ‘#
AI
’와 같은 프로필에 적혀 있으므로 주제가 같다고 볼 수 있습니다.
대부분의 경우 유사성을 찾으려면 더 복잡한 방법을 적용해야 합니다. 예를 들어, 클러스터링
방법이나
k
-최근접 이웃 알고리즘을 적용해 동일한 클러스터에 속하는 샘플을 찾아냅니다.
최근 몇 년간은 교란
perturbation
기반 준지도 학습 방법이 큰 인기를 얻었습니다. 이 방법은 샘플
에 작은 교란 신호를 더했을 때 레이블이 변하면 안 된다는 가정에 기초합니다. 따라서 훈련 대
상 샘플에 작은 교란 신호를 더해 새로운 훈련 대상 샘플을 얻습니다. 교란 신호는 샘플에 직접
적용하거나 (예: 이미지에 백색 잡음 추가 ) 샘플 표현에 적용합니다 (예: 단어 임베딩에 작은
무작위 값 추가 ). 교란 신호를 적용한 샘플과 미적용한 ...