Skip to Main Content
파이썬 데이터 분석 입문: 엑셀 및 CSV 파일 처리부터 데이터베이스, 시각화, 통계분석, 자동화까지
book

파이썬 데이터 분석 입문: 엑셀 및 CSV 파일 처리부터 데이터베이스, 시각화, 통계분석, 자동화까지

by 한창진, 이병욱, 클린턴 브라운리
November 2017
Beginner to intermediate content levelBeginner to intermediate
368 pages
7h 48m
Korean
Hanbit Media, Inc.
Content preview from 파이썬 데이터 분석 입문: 엑셀 및 CSV 파일 처리부터 데이터베이스, 시각화, 통계분석, 자동화까지
308
파이썬 데이터 분석 입문
93
~
96
행에서는 와인 종류에 따른 품질의 차이가 통계적으로 유의한지 알기 위해
t
검정
t
-
test
7
을 실시한다. 먼저
groupby
agg
함수를 사용하여 그룹별 품질의 평균과 표준편차를 구했다.
두 그룹 모두 표준편차가 작으므로 합동분산
pooled
variance
t
검정을 실시한다. 결과를 보면
p
0
.
0000
으로, 통상적인 유의수준보다 훨씬 작으므로 두 그룹 간의 품질 차이가 통계적으로
유의하다고 말할 수 있다.
7.2.3
상관관계 분석
이번에는 입력 변수에 대해서 살펴보자. 모든 변수 쌍 사이의 상관계수
correlation
coefficient
를 계산
해보자. 앞서 파일에 다음 코드를 추가한다.
31
32
#
모든
변수
사이의
상관계수
구하기
print(wine.corr())
corr
함수는 모든 변수 쌍 사이의 상관계수를 구한다. 결과를 보면 알코올, 이산화황, 산성도,
이산화황, 구연산은 품질과 양의 상관관계가 있다. 반면, 결합산, 휘발산, 잔여 설탕, 염화물,
총이산화황, 밀도는 품질과 음의 상관관계가 있다.
8
다음으로 몇 개 변수 쌍에 대해 회귀선을 포함한 산점도를 그려보겠다. 먼저 다음은 샘플 (표
본)을 추출하는 코드다.
35
36
37
38
39
40
#
변수
관계
살펴보기
def take_sample(data_frame, ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

BPF로 리눅스 관측 가능성 향상하기: 성능 분석과 네트워킹을 위한 고급 프로그래밍

BPF로 리눅스 관측 가능성 향상하기: 성능 분석과 네트워킹을 위한 고급 프로그래밍

류광, 데이비드 칼라베라, 로렌초 폰타나

Publisher Resources

ISBN: 9791162240144