
454
5
부
아파치 스파크를 넘어
스트리밍 기능을 갖춘 스파크의 데이터셋과 데이터프레임
API
의 이러한 원활한 확장은 구조적
스트리밍 접근 방식의 주요 가치로, 최소한의 목적에 특화된 훈련과 인지적 과부하 없이 스트리
밍 데이터에 대한 컴퓨팅이 실제로 가능하다.
이러한 통합의 가장 흥미로운 측면 중 하나는 카탈리스트의 쿼리 플래너를 통해 구조적 스트리
밍에서 스트리밍 데이터셋 쿼리를 실행함으로써 사용자 쿼리를 일관되게 최적화하고 스트리밍
계산을 데이터 흐름과 유사한 시스템을 사용하여 작성해야 하는 경우보다 오류 발생률이 낮아지
게 하는 것이다. 또한 플링크는 강력한 저수준
JIT
최적화
5
를 활용하여 아파치 스파크의 텅스텐
에 가까운 시스템을 갖추고 있어 오프힙
off
-
heap
으로 메모리 세그먼트를 관리할 수 있다.
마지막으로 아파치 스파크는 또한 스케줄링에 대한 연구 대상인데, 이는 스파크와 같은 시스템
에 대한 짧은 대기 시간을 암시하며, 마이크로배치에 걸친 스케줄링 결정을 재사용한다는 것을
암시한다.
6
요컨대 아파치 스파크는 에코시스템으로서, 특히 배치 분석과 코드를 교환하는 것이 관련된 맥
락에서 지속적인 스트리밍 성능에 대한 매우 강한 주장을 보여주고 있으며, 다른 스트리밍 연
산 개발 방법과의 인터페이스로서 아파치 빔은 ‘한 번 쓰기, 어떤 클러스터에서도 ...