book

스파크를 활용한 실시간 처리: 실시간 데이터 처리를 위한 고수준 스트리밍 API 마스터하기

by 김인범, 제러드 마스, 프랑수아 가릴로

April 2021

Beginner to intermediate

472 pages

9h 23m

Korean

Hanbit Media, Inc.

Read now

Unlock full access

1.1.1 배치 처리와 스트림 처리1.1.2 스트림 처리에서 시간의 개념
1.2 스트림 처리 예제
1.3.1 맵리듀스1.3.2 교훈: 확장성 및 내결함성
1.4.1 분산 시스템에서 상태 기반 스트림 처리
1.5.1 첫 번째 물결: 기능적 API1.5.2 두 번째 물결: SQL1.5.3 통합 엔진1.5.4 스파크 컴포넌트1.5.5 스파크 스트리밍
1.6 다음엔 무엇을 배울까
2.3 변환과 집계
2.4.1 텀블링 윈도우2.4.2 슬라이딩 윈도우
2.6 상태 기반 스트림
2.7.1 스트림 변환으로서 피보나치 수열의 비상태 정의
2.9.1 타임스탬프 이벤트에 대한 연산2.9.2 시간 개념의 제공자로서의 타임스탬프2.9.3 이벤트 시간과 처리 시간2.9.4 워터마크를 사용한 컴퓨팅
3.3 스트리밍 애플리케이션에서 배치 처리 구성 요소의 사용
3.4.1 람다 아키텍처3.4.2 카파 아키텍처
3.5.1 스트리밍 알고리즘은 때때로 완전히 다르다3.5.2 스트리밍 알고리즘이 배치 알고리즘에 비해 잘 측정한다고 보장할 수는 없다
4.1 두 API 이야기
4.2.1 실패 복구4.2.2 지연 평가4.2.3 캐시 힌트
4.4 처리량 지향 처리
4.8 요약
5.1.1 클러스터 매니저의 예
5.3.1 장애 복구5.3.2 내고장성에 대한 클러스터 매니저 지원
5.5.1 마이크로배칭: 대량 동기화 처리의 적용5.5.2 한 번에 한 레코드 처리
5.6 마이크로배치와 한 번에 한 레코드 처리 방식을 더욱 가깝게 만들기
5.8 구조적 스트리밍 처리 모델5.8.1 배치 간격의 소멸
6.1 스파크의 탄력적인 분산 데이터셋
6.3.1 태스크 실패 복구6.3.2 스테이지 실패 복구6.3.3 드라이버 실패 복구
7.3.1 스트림에 연결하기7.3.2 스트림에서 데이터 준비하기7.3.3 스트리밍 데이터셋에 대한 작업7.3.4 쿼리 작성하기7.3.5 스트림 처리 시작하기
7.4 요약
8.2 소스: 스트리밍 데이터 수집
8.3 스트리밍 데이터 변환8.3.1 데이터프레임 API에서의 스트리밍 API 제한
8.4.1 format8.4.2 outputMode8.4.3 queryName8.4.4 option8.4.5 options8.4.6 trigger
8.5 요약
10.1 소스의 이해10.1.1 신뢰할 수 있는 소스는 지속 가능해야 한다10.1.2 소스는 스키마를 제공해야 한다
10.3.1 파일 형식 지정하기10.3.2 공통 옵션10.3.3 일반적인 텍스트 파싱 옵션(CSV, JSON)10.3.4 JSON 파일 소스 형식
10.3.5 CSV 파일 소스 형식10.3.6 파케이 파일 소스 형식10.3.7 텍스트 파일 소스 형식
10.4.1 카프카 소스 설정10.4.2 토픽 구독 메서드 선택하기10.4.3 카프카 소스 옵션 구성10.4.4 카프카 소비자 옵션
10.5.1 구성
10.6 레이트 소스10.6.1 옵션
11.1 싱크의 이해
11.2.1 신뢰할만한 싱크11.2.2 실험을 위한 싱크11.2.3 싱크 API
11.3 파일 싱크 (1/2)11.3.1 파일 싱크와 함께 트리거 사용하기11.3.2 지원되는 모든 파일 형식에서의 공통 구성 옵션
11.3.3 일반적인 시간과 날짜 형식(CSV, JSON)11.3.4 파일 싱크의 CSV 형식11.3.5 JSON 파일 싱크 형식11.3.6 파케이 파일 싱크 형식11.3.7 텍스트 파일 싱크 형식
11.4.1 카프카 발행 모델 이해하기11.4.2 카프카 싱크 사용하기
11.6 콘솔 싱크11.6.1 옵션11.6.2 출력 모드
11.7.1 ForeachWriter 인터페이스11.7.2 TCPWriter 싱크: 실용적인 ForeachWriter 예제
11.7.3 이 예제의 교훈11.7.4 ForeachWriter 직렬화 문제 해결
12.5.1 시간 기반 윈도우 정의하기12.5.2 간격이 어떻게 계산되는지에 대한 이해12.5.3 복합 집계키 사용12.5.4 텀블링 윈도우와 슬라이딩 윈도우
12.7 요약
13.2 상태 작동을 통한 그룹의 이해13.2.1 내부 상태 흐름
13.4.1 출력 모드13.4.2 시간 경과에 따른 상태 관리
14.1.1 구조적 스트리밍 메트릭
14.2.1 StreamingQueryProgress를 사용하여 메트릭 가져오기
14.3.1 StreamingQueryListener 구현
15.1 연속형 처리15.1.1 연속형 처리 이해15.1.2 연속형 처리 사용하기15.1.3 제약 사항
15.2.1 학습과 활용15.2.2 머신러닝 모델을 스트림에 적용하기15.2.3 예제: 주변 센서를 사용하여 객실 점유율 추정
15.2.4 온라인 트레이닝
16.1.1 프로그래밍 모델로서의 DStream
16.2 스파크 스트리밍 애플리케이션의 구조16.2.1 스파크 스트리밍 컨텍스트 생성16.2.2 DStream 정의16.2.3 출력 작업 정의16.2.4 스파크 스트리밍 컨텍스트 시작하기
16.3 요약
17.1 DStream의 기본 추상화로서의 RDD
18.1 대량 동기화 아키텍처
18.2.1 리시버 API18.2.2 리시버는 어떻게 동작하는가18.2.3 리시버의 데이터 흐름18.2.4 내부 데이터 복원력18.2.5 리시버 병렬
18.2.6 밸런싱 리소스: 리시버와 프로세싱 코어18.2.7 미리 쓰기 로그를 통한 데이터 손실 제로화 달성
19.1.1 기본 소스19.1.2 리시버 기반 소스19.1.3 직접 소스
19.3 파일 소스19.3.1 작동 방식
19.4.1 작동 방식19.4.2 단위 테스트에 큐 소스 사용하기19.4.3 큐 소스에 대한 단순한 대안: ConstantInputDStream
19.6 카프카 소스19.6.1 카프카 소스 사용하기19.6.2 동작 원리
20.1 출력 연산
20.2.1 print20.2.2 saveAsxyz
20.3 프로그래밍 가능한 싱크로서 foreachRDD 사용하기
21.1 윈도우 집계
21.2.1 윈도우 길이와 배치 간격
21.3.1 슬라이딩 윈도우와 배치 간격21.3.2 슬라이딩 윈도우와 텀블링 윈도우
21.5.1 reduceByWindow21.5.2 reduceByKeyAndWindow21.5.3 countByWindow
21.6 가역 윈도우 집계
22.1 스트림 규모의 상태 기반
22.3.1 성능22.3.2 메모리 사용량
23.2.1 예제: 파케이에 스트리밍 데이터 쓰기
23.3.1 조인을 사용하여 입력 스트림을 풍부하게 만들기
23.5.1 참조 데이터셋으로 예제 강화하기
24.4 체크포인팅 비용
25.2.1 입력 속도 차트25.2.2 스케줄링 지연 차트25.2.3 처리 시간 차트25.2.4 전체 지연 차트25.2.5 배치 상세
25.3.1 모니터링 REST API 사용하기25.3.2 모니터링 REST API에 의해 노출되는 정보
25.5.1 이벤트 버스와 상호작용
26.1 스파크 스트리밍의 성능 밸런스26.1.1 배치 간격과 처리 지연 간의 관계26.1.2 실패한 잡의 마지막 순간26.1.3 자세히 살펴보기: 스케줄링 지연과 처리 지연26.1.4 처리 시간에 대한 체크포인트 영향
26.5 고정 속도 스로틀링을 통한 데이터 수신 제한
26.7.1 백프레셔 PID 튜닝26.7.2 사용자 정의 속도 추정기26.7.3 대안 동적 처리 전략에 대한 참고 사항
27.1.1 정확성
27.1.3 빅데이터27.2 정확성, 실시간 그리고 빅데이터 삼각형27.2.1 빅데이터와 실시간
27.4 해싱과 스케칭: 소개
27.5.1 역할극 연습: 만약 우리가 시스템 관리자라면27.5.2 스파크의 실용적인 HyperLogLog
27.6.1 블룸 필터 소개27.6.2 블룸 필터와 스파크27.6.3 Count-Min 스케치로 빈도수 계산
27.7.1 스파크에서 T-다이제스트
27.8.1 랜덤 샘플링27.8.2 계층화된 샘플링
28.1.1 streamDM 소개28.1.2 실전에서의 나이브 베이즈28.1.3 영화 리뷰 분류기 학습
28.3.1 실전 스파크 상에서의 Hoeffding 트리
28.4.1 K-평균 클러스터링28.4.2 온라인 데이터와 K-평균28.4.3 감쇠 클러스터의 문제점28.4.4 스파크 스트리밍으로 K-평균 스트리밍
29.1 아파치 스톰29.1.1 처리 모델29.1.2 스톰 토폴로지29.1.3 스톰 클러스터29.1.4 스파크와의 비교
29.2.1 스트리밍 우선 프레임워크29.2.2 스파크와의 비교
29.3.1 카프카 스트림 프로그래밍 모델29.3.2 스파크와의 비교
29.4.1 AWS의 아마존 키네시스29.4.2 마이크로소프트 애저 스트리밍 분석29.4.3 아파치 빔/구글 클라우드 데이터플로
30.1.1 스택 오버플로에서 도움 구하기30.1.2 메일링 리스트에서 토론 시작하기
30.2 밋업에 참석하기30.2.1 관련 서적 읽기

Content preview from 스파크를 활용한 실시간 처리: 실시간 데이터 처리를 위한 고수준 스트리밍 API 마스터하기

364

부

스파크 스트리밍

지원하는 하드웨어가 상대적으로 느릴 경우 대규모 상태를 디스크로 쓰는 데 비용이 많이 들 수

있으며, 이는 하둡 분산 파일 시스템 (

HDFS

)을 백업 저장소로 사용할 때 흔히 있는 일이다.

HDFS

는 신뢰할 수 있는 파일시스템이며 자기 드라이브는 관리 가능한 비용으로 복제된 스토

리지를 제공한다는 점에서 가장 일반적인 체크포인트 사례라는 점을 주목하자.

체크포인팅은 신뢰할 수 있는 파일시스템에서 이상적으로 작동하여 장애가 발생할 경우 신뢰

할 수 있는 스토리지의 데이터를 읽어 스트림 상태를 신속하게 복구할 수 있어야 한다. 그러나

HDFS

에 대한 쓰기가 느릴 수 있다는 점을 고려할 때 체크포인팅이 주기적으로 더 많은 런타임,

어쩌면 배치 간격보다 더 많은 시간을 필요로 한다는 사실을 직시할 필요가 있다. 그리고 앞서

설명했듯이 배치 처리 시간이 배치 처리 간격보다 길다는 것은 문제가 될 수 있다.

24.5

체크포인트 튜닝

스파크 사용자 인터페이스 덕분에 체크포인팅이 필요하지 않은

RDD

에서 관찰한 배치 처리 시

간과 비교하여 체크포인팅을 포함하는 배치 간격 계산에 얼마나 더 많은 시간이 필요한지 평균

적으로 측정할 수 있다. 배치 처리 시간은 배치 간격 (분)에 대해 약

초라고 가정하자. 이것은

비교적 유리한 경우로, 배치 간격마다

초 밖에 컴퓨팅을 하지 않으며, 처리 시스템이 데이터

를 수신하면서 유휴 상태에 있는 동안

초의 ‘자유’ 시간을 갖는다.

주어진 애플리케이션 요건을 고려하여

분마다 체크포인트를 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Start your free trial

한 권으로 끝내는 Node & Express(2판): 모던 웹을 위한 서버 사이드 자바스크립트의 모든 것

한선용, 이선 브라운

자바 마이크로서비스를 활용한 SRE : 기업에서 신뢰할 수 있는 마이크로서비스를 위한 패턴

조너선 슈나이더

머신러닝 디자인 패턴: 효율적인 머신러닝 파이프라인과 MLOps를 구축하는 30가지 디자인 패턴

맹윤호, 임지순, 발리아파 락슈마난, 세라 로빈슨, 마이클 먼

자바로 배우는 핵심 자료구조와 알고리즘: 기술 면접에 필요한 실용주의 자료구조와 알고리즘

유동환, 앨런 B. 다우니

Publisher Resources

ISBN: 9791162243961