Skip to Content
스파크를 활용한 실시간 처리: 실시간 데이터 처리를 위한 고수준 스트리밍 API 마스터하기
book

스파크를 활용한 실시간 처리: 실시간 데이터 처리를 위한 고수준 스트리밍 API 마스터하기

by 김인범, 제러드 마스, 프랑수아 가릴로
April 2021
Beginner to intermediate
472 pages
9h 23m
Korean
Hanbit Media, Inc.
Content preview from 스파크를 활용한 실시간 처리: 실시간 데이터 처리를 위한 고수준 스트리밍 API 마스터하기
402
4
고급 스파크 스트리밍 기술
이 절에서는 제한된 양의 리소스를 사용하여 스트림에서 관찰되는 요소에 대한 전역적인 질문을
분류하는 데 도움이 되는 근사 알고리즘과 샘플링 기법의 적용을 연구한다. 우선 실시간 응답과
대량의 데이터 앞에 놓인 응답의 정확성 사이의 긴장감을 탐구한다. 그런 다음 세 가지 적용되는
근사 방법을 이해해야 하는 해싱 및 스케치 개념을 소개한다.
HyperLogLog
(
HLL
)
고유 요소 수를 세기 위함
CountMinSketch
(
CMS
)
요소의 빈도 수를 세기 위함
T
-
다이제스트
관측된 요소의 빈도 히스토그램 근사를 위함
다양한 샘플링 방법과 스파크에서 지원되는 방법에 대한 개요로 이 장을 종료할 것이다.
27.1
정확성, 실시간 그리고 빅데이터
분산 컴퓨팅은 연속적인 데이터 흐름에서 작동할 때 종종 다음과 같이 삼각형을 이루는 개념들
에 의해 제약을 받는다는 점에서 특별한 것으로 간주된다.
생산된 결과의 정확성
실시간에 발생하는 연산
빅데이터 상에서의 연산
이러한 개념들을 자세히 살펴보자.
27.1.1
정확성
첫째, 우리는 정확한 계산을 데이터로부터 질문에 대한 정확한 수치 결과를 도출해야 하는 필요
성의 반영으로 볼 수 있다. 예를 들어 웹사이트에서 오는 데이터를 모니터링하는 경우 웹사이트
에서 생성하는 상호작용, 이벤트 그리고 로그를 분석하여 현재 고유
distinct
사용자 수를 이해하
기 원할 수도 있다.
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

한 권으로 끝내는 Node & Express(2판): 모던 웹을 위한 서버 사이드 자바스크립트의 모든 것

한 권으로 끝내는 Node & Express(2판): 모던 웹을 위한 서버 사이드 자바스크립트의 모든 것

한선용, 이선 브라운

Publisher Resources

ISBN: 9791162243961