통 이런 알고리즘들에 맞게 데이터의 특성 값을 조정합니다. 보통 특성마다 스케일을 조정해서
데이터를 변경합니다. 간단한 예를 준비했습니다(그림
3
-
1
).
In [3]:
mglearn.plots.plot_scaling()
그림
3-1
데이터셋의 스케일을 조정하거나 전처리하는 여러 방법
3.3.1
여러 가지 전처리 방법
[그림
3
-
1
]의 첫 번째 그래프는 두 개의 특성을 인위적으로 만든 이진 분류 데이터셋입니다.
첫 번째 특성(
x
축의 값)은
10
과
15
사이에 있습니다. 두 번째 특성(
y
축의 값)은
1
과
9
사이
에 있습니다.
오른쪽의 네 그래프는 데이터를 기준이 되는 범위로 변환하는 네 가지 방법을 보여줍니다.
scikit
-
learn
의
StandardScaler
는 각 특성의 평균을
0
, 분산을
1
로 변경하여 모든 특성
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month, and much more.