드디어 마지막 장이다. 여기서는 실제 데이터셋을 살펴본다. 지금까지 책에서 배운 기술을 이용
해서 데이터에서 의미 있는 정보를 추출해 보도록 하자. 여기서 설명하는 기술은 여러분의 데이
터셋을 포함하여 모든 데이터셋에 적용할 수 있을 것이다. 이 장에는 이 책에서 배웠던 도구들을
실습해볼 수 있는 예제 데이터셋들을 모아두었다.
책에서 사용한 예제 데이터셋은 이 책의 깃허브 저장소에서 다운로드할 수 있다.
●
깃허브 저장소
http
://
github
.
com
/
wesm
/
pydata
-
book
14.1
Bit
.
ly
의
1
.
USA
.
gov
데이터
2011
년
URL
축약 서비스인
Bit
.
ly
는 미국 정부 웹사이트인
USA
.
gov
와 제휴하여 .
gov
나
.
mil
로 끝나는
URL
을 축약한 사용자들에 대한 익명 정보를 제공했었다.
2011
년에는 실시간
피드뿐 아니라 매 시간마다 스냅샷을 텍스트 파일로 내려받을 수 있었다. 이 책을 쓰는 현재 해
당 서비스는 더 이상 존재하지 않지만 그 데이터 파일 중 하나를 살펴보자.
매 시간별 스냅샷 파일의 각 로우는 웹 데이터 형식으로 흔히 사용되는
JSON
JavaScript
Object
Notation
이다. 스냅샷 파일의 첫 줄을 열어보면 다음과 비슷한 내용을 확인할 수 있다.
데이터 분석 예제
CHAPTER
14
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month, and much more.