
209
5
장
서포트 벡터 머신
선형
SVM
분류기를 훈련시키기 위해 (
4
장에서 본) 일반적인 확률적 경사 하강법을 적용합니
다.
LinearSVC
만큼 빠르게 수렴하지는 않지만 데이터셋이 아주 커서 메모리에 적재할 수 없거
나(외부 메모리 훈련 ), 온라인 학습으로 분류 문제를 다룰 때는 유용합니다.
TIP
LinearSVC
는 규제에 편향을 포함시킵니다. 그래서 훈련 세트에서 평균을 빼서 중앙에 맞춰야 합니다.
StandardScaler
를 사용하여 데이터 스케일을 맞추면 자동으로 이렇게 됩니다. 또한
loss
매개변수를
"
hinge
"
로 지정해야 합니다.
5
마
지막으로 훈련 샘플보다 특성이 많지 않다면 성능을 높이기 위해
dual
매개
변수를
False
로 지정해야 합니다(이 장 뒷부분에서 쌍대
duality
문제에 대해 자세히 설명하겠습니다).
5.2
비선형
SVM
분류
선형
SVM
분류기가 효율적이고 많은 경우에 아주 잘 작동하지만, 선형적으로 분류할 수 없는
데이터셋이 많습니다. 비선형 데이터셋을 다루는 한 가지 방법은 (
4
장에서처럼 ) 다항 특성과
같은 특성을 더 추가하는 것입니다. 이렇게 하면 선형적으로 구분되는 데이터셋이 만들어질 수
있습니다. [그림
5
-
5
]의 왼쪽 그래프는 하나의 특성
x
1
만을 가진 간단한 데이터셋을 나타냅니
다. 그림에서 볼 수 있듯이 ...