
308
파이썬 데이터 분석 입문
93
~
96
행에서는 와인 종류에 따른 품질의 차이가 통계적으로 유의한지 알기 위해
t
검정
t
-
test
7
을 실시한다. 먼저
groupby
및
agg
함수를 사용하여 그룹별 품질의 평균과 표준편차를 구했다.
두 그룹 모두 표준편차가 작으므로 합동분산
pooled
variance
t
검정을 실시한다. 결과를 보면
p
값
은
0
.
0000
으로, 통상적인 유의수준보다 훨씬 작으므로 두 그룹 간의 품질 차이가 통계적으로
유의하다고 말할 수 있다.
7.2.3
상관관계 분석
이번에는 입력 변수에 대해서 살펴보자. 모든 변수 쌍 사이의 상관계수
correlation
coefficient
를 계산
해보자. 앞서 파일에 다음 코드를 추가한다.
31
32
#
모든
변수
쌍
사이의
상관계수
구하기
print(wine.corr())
corr
함수는 모든 변수 쌍 사이의 상관계수를 구한다. 결과를 보면 알코올, 이산화황, 산성도,
이산화황, 구연산은 품질과 양의 상관관계가 있다. 반면, 결합산, 휘발산, 잔여 설탕, 염화물,
총이산화황, 밀도는 품질과 음의 상관관계가 있다.
8
다음으로 몇 개 변수 쌍에 대해 회귀선을 포함한 산점도를 그려보겠다. 먼저 다음은 샘플 (표
본)을 추출하는 코드다.
35
36
37
38
39
40
#
변수
간
관계
살펴보기
def take_sample(data_frame, ...