
269
7
장
데이터 정제 및 준비
데이터 분석과 모델링 작업에서는 데이터를 불러오고, 정제하고, 변형하고, 재정렬하는 데이터
준비 과정에 많은 시간을 들이게 된다. 이런 작업들은 분석 시간의
80
%를 잡아먹기도 한다. 가
끔은 파일이나 데이터베이스에 저장된 데이터가 애플리케이션에서 사용하기 쉽지 않은 방식으
로 저장되어 있기도 하다. 대부분의 사람은 파일이나 데이터베이스에 저장된 데이터를 다른 형
태로 바꾸기 위해 파이썬이나
Perl
,
R
,
Java
혹은
awk
나
sed
같은 유닉스의 텍스트 처리 유틸
리티를 사용하기도 하는데, 파이썬 표준 라이브러리를
pandas
와 함께 사용하면 큰 수고 없이
데이터를 원하는 형태로 가공할 수 있다.
pandas
는 이런 작업을 위한 유연하고 빠른 고수준의
알고리즘과 처리 기능을 제공한다.
혹시 이 책이나
pandas
라이브러리에서 찾을 수 없는 새로운 형태의 데이터 처리 방식을 발견
하게 된다며 파이썬 메일링 리스트나
pandas
깃허브에 올려놓기 바란다. 실제로
pandas
는
대부분의 설계와 구현에 실제 애플리케이션 개발 과정 중에 발생한 요구 사항을 고려했다.
이 장에서는 결측치, 중복 데이터, 문자열 처리 그리고 다른 분석적 데이터 변환에 대한 도구들
을 다룬다. 다음 장에서는 데이터를 합치고 재배열하는 다양한 방법을 ...