29
1
장
SQL을 활용한 분석
layer
가 생깁니다.
R
의
dbplyr
나 파이썬의
SQLAlchemy
같은 패키지를 사용하면
R
이나 파이
썬에서도 데이터베이스에 접속해
SQL
쿼리를 실행하고 그 결과를 활용할 수 있습니다. 이런
면에서
R
과 파이썬은
SQL
을 보완합니다.
R
과 파이썬은 고수준의 통계 함수를 내장
built
-
in
하고 있거나 패키지로 제공합니다.
SQL
도 평균
이나 표준편차를 계산하는 함수를 제공하긴 하지만 실험 결과 분석 (
7
장에서 다룹니다 )에서 사
용되는
p
-값
p
-
value
및 통계적 유의성
statistical
significance
등을 계산할 수는 없습니다. 고수준의 통
계 및 머신러닝은
SQL
이 아닌 다른 코딩 언어에서 더 잘 지원합니다.
다음은 데이터 분석에
SQL
,
R
, 파이썬 중 어느 것을 사용할지 결정할 때 고려할 사항입니다.
●
데이터가 어디에 저장돼 있는가? (데이터베이스, 파일, 웹사이트 )
●
데이터 용량은 어느 정도인가?
●
데이터를 어디에 사용할 것인가? (보고서 작성, 데이터 시각화, 통계 분석 )
●
데이터가 새로운 값으로 변경되거나 최신화될 필요가 있는가? (업데이트 주기 )
●
팀 혹은 조직에서 어떤 도구를 사용하며, 그 규정을 따르는 것이 얼마나 중요한가?
데이터 분석 또는 데이터 과학에서 어떤 언어와 도구가 가장 좋은지에 관한 논쟁은 끝이 없습
니다. 다양한 언어와 도구가 존재하므로 분석을 수행하는 방법도 여러 가지입니다. 프로그래밍
언어가 진화하고 그 인기도 계속해서 바뀌는 가운데, ...