394
고성능 파이썬(2판)
Vaex
는 지연 계산을 사용해 열 결과를 그때그때 계산한다.
Vaex
는 사용자가 요청하는 행에
속한 열만 계산한다. 예를 들어 행이
10
억 개인 데이터에서 두 열 사이의 합계를 요청하고, 결
과로
샘플
을 하나만 요청한다고 가정해보자. 이때
Vaex
는 요청받은 행의 데이터만 손대고 샘
플링하지 않는 나머지 행의 합계는 아예 계산하지 않는다. 대화식 작업이나 시각화를 바탕으로
데이터를 조사할 때는 이런 접근 방법이 아주 효율적일 수 있다.
팬더스의 문자열 지원은
C
파이썬에서 왔고,
GIL
에 의해 제한된다. 그리고 문자열 객체들은 메
모리상에 여기저기 흩어져 있는 큰 객체이며, 벡터화한 연산을 지원하지 않는다.
Vaex
는 자체
문자열 라이브러리를 사용해 팬더스와 비슷한 인터페이스를 제공하면서 충분히 빠른 문자열
기반 연산을 제공한다.
문자열을 많이 처리하거나
RAM
보다 더 큰 데이터셋을 사용한다면
Vaex
를 꼭 평가해보라. 일
반적으로
DataFrame
의 부분집합에 대해서 작업을 진행한다면,
Dask
를 팬더스
DataFrame
에 적용하기보다
Vaex
의 암시적인 지연 계산이 여러분의 워크플로를 더 간단하게 만들 수
있다.
10.7
강건한 프로덕션 클러스터링을 위한
NSQ
프로덕션 환경에서는 지금까지 언급한 것보다 훨씬 더 강건한 솔루션이 필요하다. 클러스터를
매일 운용하는 상황에서는 일부 노드를 사용할 수 없게 되거나, 코드가 오류로 중단되거나, 네
트워크가 망가지거나, 그 외의 일어날 가능성이 있는 수천 가지