Skip to Content
스파크를 활용한 실시간 처리: 실시간 데이터 처리를 위한 고수준 스트리밍 API 마스터하기
book

스파크를 활용한 실시간 처리: 실시간 데이터 처리를 위한 고수준 스트리밍 API 마스터하기

by 김인범, 제러드 마스, 프랑수아 가릴로
April 2021
Beginner to intermediate
472 pages
9h 23m
Korean
Hanbit Media, Inc.
Content preview from 스파크를 활용한 실시간 처리: 실시간 데이터 처리를 위한 고수준 스트리밍 API 마스터하기
249
16
스파크 스트리밍 소개
스파크 스트리밍은 스파크의 분산 처리 기능 위에 구축된 최초의 스트림 처리 프레임워크다. 오
늘날에는 대규모 데이터 스트림을 처리하기 위해 업계에서 널리 채택된 성숙한
API
를 제공한다.
스파크는 설계상 머신 클러스터에 분산된 데이터를 처리하는 데 정말 유용한 시스템이다. 스파
크의 핵심 추상화인 탄력적 분산 데이터셋 (
RDD
)과 풍부한 함수형
API
를 통해 분산 데이터를
컬렉션으로 취급하는 프로그램을 작성할 수 있다. 이러한 추상화를 통해 분산 데이터셋의 변환
형태로 데이터 처리 로직을 추론할 수 있다. 이렇게 하면 확장 가능하고 분산된 데이터 처리 프
로그램을 작성하고 실행하는 데 필요한 인지 부하가 줄어든다.
스파크 스트리밍은 단순하면서도 강력한 전제를 기반으로 만들어졌는데, 이는 스파크의 분산 컴
퓨팅 기능을 적용하여 연속적인 데이터 스트림을 스파크가 작동할 수 있는 개별 데이터 컬렉션
으로 변환하여 처리를 스트리밍하는 것을 말한다.
[그림
16
-
1
]에서 볼 수 있듯이 스파크 스트리밍의 주요 작업은 스트림에서 데이터를 가져와서
작은 배치로 패키지화한 후 추가 처리를 위해 스파크에 제공하는 것이다. 그런 다음 출력이 일부
다운스트림 시스템으로 생성된다.
스파크 스트리밍 스파크
그림
16-1
작동 중인 스파크와 스파크
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

한 권으로 끝내는 Node & Express(2판): 모던 웹을 위한 서버 사이드 자바스크립트의 모든 것

한 권으로 끝내는 Node & Express(2판): 모던 웹을 위한 서버 사이드 자바스크립트의 모든 것

한선용, 이선 브라운

Publisher Resources

ISBN: 9791162243961