256
파이썬 데이터 분석 입문
일에서 두 번 (
supplies _2013
워크시트에서 한 번,
supplies _2014
워크시트에서 한 번 ),
.
xlsx
파일에서 두 번(
supplies _2013
워크시트에서 한 번,
supplies _2014
워크시트에서 한
번),
CSV
파일에서 한 번 발견되었다.
CSV
파일의 출력 데이터와 비교해보면 엑셀 파일의 출력 데이터는 하나의 열(발견한 데이터
의 워크시트 이름 )이 더 있다. 네 번째 열의 비용 데이터에는 입력 파일로부터 달러 기호를 제
외하고 비용적인 부분만 포함한다. 마지막으로 다섯 번째 열인 날짜 데이터는
CSV
와 엑셀 파
일에서 일관된 형식을 지닌다.
이 애플리케이션은 일반적인 실생활 문제를 해결하기 위해 지금까지 다뤘던 몇몇 기술들을 혼
합하여 사용했다. 비즈니스 분석가들은 다수의 파일과 여러 유형의 파일로 분할된 데이터를 하
나의 데이터 집합으로 통합해야 하는 문제에 종종 직면한다. 대부분의 경우 수십, 수백, 수천
개의 파일들이 있고, 이 파일들로부터 특정 데이터를 검색하고 추출하려는 생각은 겁이 나게
마련이다.
이 절에서는 일련의 데이터로부터 특정 데이터를 추출할 수 있는 확장 가능한 방법을 살펴봤
다. 이 예제에서는 준비 시간을 최소한으로 줄이기 위해
3
개의 파일과 짧은 품목 번호 목록을
사용했다. 그러나 이 방법은 확장성이 좋기 때문에 보다 더 많은 항목과 훨씬 더 많은 파일을
검색하는 데에도 이용할 수 있다.
지금까지 대량의 기록 파일들로부터 특정 기록을 찾는 문제를 ...