표준 연속/이산 확률 분포(밀도 함수, 샘플러, 연속 분포 함수)와 다양한 통계 테스트 그리고 좀 더 기술적인
통계도구
NumPy
와
SciPy
를 함께 사용하면 전통적인 과학 계산 애플리케이션에서 제공하는 거의 모든
기능을 대체할 수 있다.
1.3.6
scikit
-
learn
scikit
-
learn
(사이킷런)은 처음 개발되기 시작한
2010
년부터 파이썬 개발자를 위한 범용 머
신러닝 도구로 자리 잡기 시작했다. 단
7
년 만에 전 세계에서
1
,
500
명이 넘는 사람이 프로젝트
에 기여하고 있다. 다음과 같은 모델의 하위모듈을 포함한다.
●
분류:
SVM
, 최근접 이웃, 랜덤 포레스트, 로지스틱 회귀 등
●
회귀: 라소, 리지 회귀 등
●
클러스터링:
k
-
평균, 스펙트럴 클러스터링 등
●
차원 축소:
PCA
, 특징 선택, 행렬 인수분해 등
●
모델 선택: 격자탐색, 교차검증, 행렬
●
전처리: 특징 추출, 정규화
pandas
,
statsmodels
그리고
IPython
과 함께
scikit
-
learn
은 파이썬이 생산적인 데이터 과
학 언어로 자리매김하는 데 일등공신 역할을 했다. 이 책에
scikit
-
learn
의 자세한 내용을 모두
담을 수는 없지만 몇몇 모델과 이 책에서 소개한 다른 도구를 어떻게 함께 이용할 수 있는지 간
략하게 소개하겠다.
1.3.7
statsmodels
statsmodels
은 다양한
R
언어용 회귀분석 모델을 구현한 스탠퍼드 대학의 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month, and much more.