Skip to Content
데이터 과학을 위한 통계: 데이터 분석에서 머신러닝까지 50가지 핵심 개념
book

데이터 과학을 위한 통계: 데이터 분석에서 머신러닝까지 50가지 핵심 개념

by 이준용, 피터 브루스, 앤드루 브루스
October 2018
Beginner to intermediate
328 pages
7h 58m
Korean
Hanbit Media, Inc.
Content preview from 데이터 과학을 위한 통계: 데이터 분석에서 머신러닝까지 50가지 핵심 개념
22
데이터 과학을 위한 통계
때, 시각화, 해석, 통계 모델 결정 등에 데이터 종류가 중요한 역할을 하기 때문이다.
R
이나 파
이썬 같은 데이터 과학 소프트웨어들은 실제로 계산 성능을 향상시키기 위해 이러한 데이터 종
류 정보를 활용한다. 더 중요한 것은 소프트웨어는 변수의 종류에 따라 해당 변수에 관련된 계
산을 어떤 식으로 수행할지 결정한다는 점이다.
아마 소프트웨어 엔지니어나 데이터베이스 프로그래머라면, 범주형이니 순서형이니 하는 이러
한 구분이 분석에 왜 필요한가 궁금할 수도 있겠다. 범주라는 것은 결국 문자나 숫자의 집합일
것이고, 기본적으로 데이터베이스는 이러한 것을 내부적으로 자동 처리해주기 때문이다. 하지
만 데이터가 문자열인지 아니면 일정한 범위가 주어진 범주형인지 확실히 구분할 경우 다음과
같은 이점이 생긴다.
• 데이터가 범주형이라는 정보는 소프트웨어가 차트 생성이나 모델 피팅 등 통계분석을 수행하는 방식을 결정하
는 데 큰 도움을 준다. 예를 들어
R
이나 파이썬에서는 순서형 데이터를
ordered
.
factor
라고 구분하여 표현
하고, 이를 차트, 테이블, 통계 모델에서 사용자가 원하는 순서를 유지하는 데 사용한다.
• 관계형 데이터베이스에서처럼, 저장소와 인덱싱을 최적화하는 데 사용한다.
• 범주형 변수가 취할 수 있는 값들은 소프트웨어적으로 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

파이썬 라이브러리를 활용한 머신러닝(번역개정판): 사이킷런 핵심 개발자가 쓴 머신러닝과 데이터 과학 실무서

파이썬 라이브러리를 활용한 머신러닝(번역개정판): 사이킷런 핵심 개발자가 쓴 머신러닝과 데이터 과학 실무서

박해선, 안드레아스 뮐러, 세라 가이도

Publisher Resources

ISBN: 9791162240984