Skip to Content
스파크를 활용한 실시간 처리: 실시간 데이터 처리를 위한 고수준 스트리밍 API 마스터하기
book

스파크를 활용한 실시간 처리: 실시간 데이터 처리를 위한 고수준 스트리밍 API 마스터하기

by 김인범, 제러드 마스, 프랑수아 가릴로
April 2021
Beginner to intermediate
472 pages
9h 23m
Korean
Hanbit Media, Inc.
Content preview from 스파크를 활용한 실시간 처리: 실시간 데이터 처리를 위한 고수준 스트리밍 API 마스터하기
140
2
구조적 스트리밍
실행이 운영 클러스터에 분산되어 확장성이 뛰어나다.
내결함성 데이터 스토리지는 데이터 수신 및 전달의 일관성을 보장한다.
풀 기반
pull
-
based
소비자는 실시간에서 마이크로배치, 배치에 이르기까지 다양한 시간과 속도로 데이터를 소
비할 수 있으므로 광범위한 애플리케이션에 데이터를 공급할 수 있다.
카프카는
http
://
kafka
.
apache
.
org
에서 찾을 수 있다.
9.1
스트리밍 소스 소비하기
프로그램의 첫 부분은 스트리밍 데이터셋 생성을 다룬다.
val rawData
=
sparkSession
.
readStream
.
format
("
kafka
")
.
option
("
kafka
.
bootstrap
.
servers
",
kafkaBootstrapServer
)
.
option
("
subscribe
",
topic
)
.
option
("
startingOffsets
",
"
earliest
")
.
load
()
>
rawData
:
org
.
apache
.
spark
.
sql
.
DataFrame
구조적 스트리밍의 엔트리 포인트는 기존의 스파크 세션 (
sparkSession
)이다. 첫 번째 줄에서
알 수 있듯이 스트리밍
Dataset
생성은 읽기 작업을 대신 사용하는 정적
Dataset
생성과 거의
동일하다.
sparkSession
.
readStream
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

한 권으로 끝내는 Node & Express(2판): 모던 웹을 위한 서버 사이드 자바스크립트의 모든 것

한 권으로 끝내는 Node & Express(2판): 모던 웹을 위한 서버 사이드 자바스크립트의 모든 것

한선용, 이선 브라운

Publisher Resources

ISBN: 9791162243961