
323
7
장
비지도 학습
비지도 학습
unsupervised
learning
이라는 용어는 레이블이 달린 데이터를 이용해 모델을 학습하는 과
정 없이 데이터로부터 의미를 이끌어내는 통계적 기법들을 의미한다.
4
장에서
6
장까지의 목적
은 예측변수로부터 어떤 응답변수를 예측하는 모델을 만드는 것이었다. 즉 이것은 지도 학습이
었다. 이와 반대로 비지도 학습 역시 데이터로부터 모델을 만드는 것이 목적이긴 하지만, 응답
변수와 예측변수 사이의 구분이 없다.
비지도 학습은 여러 가지 서로 다른 목적을 가지고 사용할 수 있다. 어떤 경우에는 레이블이 정
해진 응답변수가 없는 상태에서 예측 규칙을 만드는 데 사용할 수 있다. 데이터의 의미 있는 그
룹들을 찾기 위해
클러스터링
clustering
을 사용할 수 있다. 예를 들면 웹사이트에서 사용자의 클릭
데이터와 인구통계 정보를 이용해 서로 다른 성격의 사용자들을 그룹화할 수 있을 것이다. 이
를 통해 웹사이트를 사용자 그룹의 기호에 맞게 개선할 수 있을 것이다.
또 어떤 경우에는 데이터의 변수들을 관리할 수 있을 만한 수준으로
차원을 줄이는 것
reducing
the
dimension
이 목표가 될 수도 있다. 이렇게 줄인 데이터는 회귀 혹은 분류 같은 예측 모델에 입력
으로 사용할 수 있을 것이다. 예를 들어 제조 공정을