Skip to Content
파이썬 라이브러리를 활용한 데이터 분석(2판): 영화 평점, 이름 통계, 선거 데이터 등 실사례 사용
book

파이썬 라이브러리를 활용한 데이터 분석(2판): 영화 평점, 이름 통계, 선거 데이터 등 실사례 사용

by 김영근, 웨스 맥키니
June 2019
Beginner to intermediate
664 pages
18h 26m
Korean
Hanbit Media, Inc.
Content preview from 파이썬 라이브러리를 활용한 데이터 분석(2판): 영화 평점, 이름 통계, 선거 데이터 등 실사례 사용
269
7
데이터 정제 및 준비
데이터 분석과 모델링 작업에서는 데이터를 불러오고, 정제하고, 변형하고, 재정렬하는 데이터
준비 과정에 많은 시간을 들이게 된다. 이런 작업들은 분석 시간의
80
%를 잡아먹기도 한다. 가
끔은 파일이나 데이터베이스에 저장된 데이터가 애플리케이션에서 사용하기 쉽지 않은 방식으
로 저장되어 있기도 하다. 대부분의 사람은 파일이나 데이터베이스에 저장된 데이터를 다른 형
태로 바꾸기 위해 파이썬이나
Perl
,
R
,
Java
혹은
awk
sed
같은 유닉스의 텍스트 처리 유틸
리티를 사용하기도 하는데, 파이썬 표준 라이브러리를
pandas
와 함께 사용하면 큰 수고 없이
데이터를 원하는 형태로 가공할 수 있다.
pandas
는 이런 작업을 위한 유연하고 빠른 고수준의
알고리즘과 처리 기능을 제공한다.
혹시 이 책이나
pandas
라이브러리에서 찾을 수 없는 새로운 형태의 데이터 처리 방식을 발견
하게 된다며 파이썬 메일링 리스트나
pandas
깃허브에 올려놓기 바란다. 실제로
pandas
대부분의 설계와 구현에 실제 애플리케이션 개발 과정 중에 발생한 요구 사항을 고려했다.
이 장에서는 결측치, 중복 데이터, 문자열 처리 그리고 다른 분석적 데이터 변환에 대한 도구들
을 다룬다. 다음 장에서는 데이터를 합치고 재배열하는 다양한 방법을 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

파이썬 라이브러리를 활용한 머신러닝(번역개정판): 사이킷런 핵심 개발자가 쓴 머신러닝과 데이터 과학 실무서

파이썬 라이브러리를 활용한 머신러닝(번역개정판): 사이킷런 핵심 개발자가 쓴 머신러닝과 데이터 과학 실무서

박해선, 안드레아스 뮐러, 세라 가이도

Publisher Resources

ISBN: 9791162241905