268
파이썬 데이터 분석 입문
이 스크립트를 실행한 날짜에 따라 이 값은 물론 모든 고객의 마지막 패키지 보유일이 달라질
것이다(더 큰 값이 될 것이다 ). 이러한 각 고객의 데이터를 어떻게 처리할지는 비즈니스적인
결정이다. 이 예제 코드를 이해했다면 수정하여 특정 유스 케이스에 맞게 데이터를 처리할 수
있을 것이다.
이번에 살펴본 예제는
1
장에서 다뤘던 몇몇 기법을 결합해서 사용했다. 실제로 자주 만나게 되
는 문제를 해결하기 위해, 사용자 정의 함수를 생성하고 딕셔너리를 사용하는 법 등 말이다. 비
즈니스 분석을 하다 보면 입력 데이터의 행 사이의 차이를 계산해야 할 때가 많이 있다. 대부분
의 경우, 수천/수만 개 데이터를 여러 로직으로 처리해야만 하므로 특정 행만 수동으로 계산한
다는 생각은 위험하다 (혹시라도 수동 계산이 가능하더라도 말이다 ).
이번 절에서는 입력 파일 내 행 간 차이를 계산하고 다른 열을 기준으로 이 차이를 집계하는 방
법을 살펴봤다. 준비를 줄이기 위해 몇 명 되지 않는 고객 레코드 목록을 사용하였다. 하지만
이 방법은 확장성이 좋기 때문에 보다 긴 목록을 계산하거나 다수의 입력 파일을 처리할 수 있
는 코드로 변형할 수 있다.
지금까지 카테고리 수가 미정일 때 통계치를 계산하는 문제를 다루었다. 이제 주요 데이터를
얻기 위해 일반 텍스트 파일을 파싱하는 문제로 관심을 돌려보자. 아직은 조금 추상적으로 들
릴 수도 있지만, 다음 절에서 자세히 알아볼 것이다.
5.3
텍스트 파일에서 카테고리별 통계치 계산하기 ...