
68
1
부
머신러닝
2.1
실제 데이터로 작업하기
머신러닝을 배울 때는 인공적으로 만들어진 데이터셋이 아닌 실제 데이터로 실험해보는 것이
가장 좋습니다. 다행히 여러 분야에 걸쳐 공개된 데이터셋이 아주 많습니다. 다음은 데이터를
구하기 좋은 곳입니다.
●
유명한 공개 데이터 저장소
-
UC
얼바인
Irvine
머신러닝 저장소(
http://archive.ics.uci.edu/ml
)
-
캐글
Kaggle
데이터셋 (
http://www.kaggle.com/datasets
)
-
아마존
AWS
데이터셋 (
https://registry.opendata.aws
)
●
메타 포털 (공개 데이터 저장소가 나열되어 있습니다)
-
데이터 포털
Data
Portals
(
http://dataportals.org
)
-
오픈 데이터 모니터
Open
Data
Monitor
(
http://opendatamonitor.eu
)
-
퀀들
Quandl
(
http://quandl.com
)
●
인기 있는 공개 데이터 저장소가 나열되어 있는 다른 페이지
-
위키백과 머신러닝 데이터셋 목록(
https://goo.gl/SJHN2k
)
-
Quora
.
com
(
https://homl.info/10
)
-
데이터셋 서브레딧
subreddit
(
http://www.reddit.com/r/datasets
)
이 장에서는
StatLib
저장소
2
에 있는 ...