29
1
장
시작하기 전에
1.3.2
pandas
pandas
(팬더스 )는 구조화된 데이터나 표 형식의 데이터를 빠르고 쉽고 표현적으로 다루도록
설계된 고수준의 자료구조와 함수를 제공한다.
2010
년 처음 개발되어 파이썬으로 생산적이고
강력한 데이터 분석 환경을 구성하는 데 도움을 주고 있다.
pandas
의 주된 자료구조는 표 형태
의 로우와 컬럼 이름을 가지는
DataFrame
(데이터프레임 )과
1
차원 배열 객체인
Series
(시리
즈)다.
pandas
는 ‘
NumPy
의 고성능, 배열 연산 아이디어’에 스프레드시트와 관계형 데이터베이스
(
SQL
같은)의 유연한 데이터 처리 기능을 결합한 것이다. 세련된 색인 기능을 제공하여 데이
터 변형, 자르기, 취합 그리고 데이터의 부분집합을 선택할 수 있도록 해준다. 데이터를 처리하
고 준비하고 다듬는 과정은 데이터 분석에서 가장 중요한 부분이므로
pandas
는 이 책에서 우
선적으로 집중하는 라이브러리다.
pandas
라이브러리 개발 배경을 간단히 알아보자. 나는
2008
년
AQR
캐피탈 매니지먼트에서
퀀트
quant
로 근무하는 동안
pandas
개발을 시작했는데, 그 당시 다음과 같은 요구 사항을 만족
하는 도구를 찾을 수 없었기 때문이었다.
●
자동적으로 혹은 명시적으로 축의 이름에 따라 데이터를 정렬할 수 있는 자료구조. 이러한 자료구조는 잘못
정렬된 데이터에 의한 일반적인 오류를 예방하고 다양한 소스에서 가져온 다양한 방식으로 색인되어 있는 데
이터를 다룰 수 있다.
●
통합된 시계열 기능
●