
22
데이터 과학을 위한 통계
때, 시각화, 해석, 통계 모델 결정 등에 데이터 종류가 중요한 역할을 하기 때문이다.
R
이나 파
이썬 같은 데이터 과학 소프트웨어들은 실제로 계산 성능을 향상시키기 위해 이러한 데이터 종
류 정보를 활용한다. 더 중요한 것은 소프트웨어는 변수의 종류에 따라 해당 변수에 관련된 계
산을 어떤 식으로 수행할지 결정한다는 점이다.
아마 소프트웨어 엔지니어나 데이터베이스 프로그래머라면, 범주형이니 순서형이니 하는 이러
한 구분이 분석에 왜 필요한가 궁금할 수도 있겠다. 범주라는 것은 결국 문자나 숫자의 집합일
것이고, 기본적으로 데이터베이스는 이러한 것을 내부적으로 자동 처리해주기 때문이다. 하지
만 데이터가 문자열인지 아니면 일정한 범위가 주어진 범주형인지 확실히 구분할 경우 다음과
같은 이점이 생긴다.
• 데이터가 범주형이라는 정보는 소프트웨어가 차트 생성이나 모델 피팅 등 통계분석을 수행하는 방식을 결정하
는 데 큰 도움을 준다. 예를 들어
R
이나 파이썬에서는 순서형 데이터를
ordered
.
factor
라고 구분하여 표현
하고, 이를 차트, 테이블, 통계 모델에서 사용자가 원하는 순서를 유지하는 데 사용한다.
• 관계형 데이터베이스에서처럼, 저장소와 인덱싱을 최적화하는 데 사용한다.
• 범주형 변수가 취할 수 있는 값들은 소프트웨어적으로 ...