스트림 처리는 시간이 지남에 따라 관찰된 데이터의 요약을 생성할 때 특히 어려운 문제다. 스트
림에서 값을 관찰할 수 있는 기회는 한 번뿐이므로 데이터 스트림에서 동일한 질문에 대답하려
는 경우 제한된 데이터셋에서 단순하다고 간주되는 쿼리조차도 문제가 된다.
이 문제의 핵심은 이러한 쿼리가 전체 데이터셋을 관찰해야 하는 전역 요약 형식 또는 최소 상
계
supremum
결과를 어떻게 요청하는지에 있다.
●
스트림의 모든 고유 요소 수(요약)
●
스트림에서 가장 높은
k
요소(전역 최소 상계)
●
스트림에서 가장 빈번한
k
개의 요소(전역 최소 상계)
당연히 데이터가 스트림에서 나오는 경우 전체 데이터셋을 한 번에 보는 데 어려움이 있다. 이러
한 종류의 쿼리는 전체 스트림을 저장한 다음 배치 데이터로 처리하여 단순하게 응답할 수 있다.
하지만 이 스토리지가 항상 가능한 것은 아닐 뿐만 아니라 손이 많이 가는 접근법이기도 하다.
보다시피 스트림의 주요 수치와 특성을 반영하는 간결한 데이터 표현을 구성할 수 있다. 이 간결
함은 그들이 반환하는 응답의 정확성으로 측정된 비용을 가진다. 이러한 데이터 구조와 그것들
을 작동시키는 알고리즘은 특정한 오차 범위와 함께 근사 결과를 반환한다. 요약해서 말하면 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month, and much more.