
127
3
장
분류
1
장에서는 가장 일반적인 지도 학습 작업이 회귀(값 예측)와 분류 (클래스 예측)라고 했습니
다.
2
장에서는 주택 가격을 예측하는 회귀 작업을 살펴보면서 선형 회귀, 결정 트리, 랜덤 포레
스트 (
7
장에서 더 자세히 설명합니다 ) 같은 여러 알고리즘을 보았습니다. 이 장에서는 분류 시
스템을 집중적으로 다루겠습니다.
3.1
MNIST
이 장에서는 고등학생과 미국 인구조사국 직원들이 손으로 쓴
70
,
000
개의 작은 숫자 이미지
를 모은
MNIST
데이터셋을 사용하겠습니다. 각 이미지에는 어떤 숫자를 나타내는지 레이블
되어 있습니다. 이 데이터셋은 학습용으로 아주 많이 사용되기 때문에 머신러닝 분야의 ‘
Hello
World
’라고 불립니다. 새로운 분류 알고리즘이 나올 때마다
MNIST
데이터셋에서 얼마나 잘
작동하는지 봅니다. 머신러닝을 배우는 사람이라면 머지않아
MNIST
데이터셋을 맞닥뜨리게
될 것입니다.
사이킷런에서 제공하는 여러 헬퍼 함수를 사용해 잘 알려진 데이터셋을 내려받을 수 있습니다.
MNIST
도 그중 하나입니다. 다음은
MNIST
데이터셋을 내려받는 코드입니다.
1
1
기본적으로 사이킷런은 내려받은 데이터셋을
$
HOME
/
scikit
_
learn
_
data
디렉터리에 캐싱합니다.
분류
CHAPTER
3