
Data Science
176
비록 스팸 필터 예시에서는 데이터의 특성을 생성했지만, 가끔씩 특성을 제거하
는 경우도 있을 것이다.
예를 들어 입력 변수로 수백 차원의 벡터가 주어졌다고 해보자. 상황에 따라
(
10
.
8
절에서 그랬듯) 차원 축소를 통해 입력 변수를 몇몇 중요한 변수로 축소시
키고 더 적은 수의 변수로 데이터의 특성을 나타낼 수도 있다. 아니면
15
.
8
절에
서 보게 될
regularization
같이 변수의 개수가 늘어날수록 해당 모델을 불리하게
만드는 기법을 사용할 수도 있다.
특성은 어떻게 추출할까? 데이터의 특성을 추출하기 위해서는 경험과 현장 지
식이 중요하다. 만약 수없이 많은 이메일을 받아 봤다면 대부분의 스팸 메일은
특정 단어를 포함하고 있다는 것을 알고 있을 것이다. 그리고 ‘
d
’가 나온 횟수는
별로 중요하지 않다는 것을 알고 있을 것이다. 하지만 다양한 특성을 나타내는
모델을 직접 만들어 봐야 한다. 이 또한 재미있는 일이지 않을까?
11.7
더 공부해 보고 싶다면
· 계속 읽어 보자! 앞으로 몇 장에 걸쳐 다양한 기계학습 방법론에 대해 배우게
될 것이다.
· 코세라의 “
Machine
Learning
”
5
강좌는 원조
MOOC
이기 때문에 기계학습의
기본을 좀 더 깊게 익히기 위한 좋은 출발이다.
·
The Elements ...