book

스파크를 활용한 실시간 처리: 실시간 데이터 처리를 위한 고수준 스트리밍 API 마스터하기

by 김인범, 제러드 마스, 프랑수아 가릴로

April 2021

Beginner to intermediate

472 pages

9h 23m

Korean

Hanbit Media, Inc.

Read now

Unlock full access

1.1.1 배치 처리와 스트림 처리1.1.2 스트림 처리에서 시간의 개념
1.2 스트림 처리 예제
1.3.1 맵리듀스1.3.2 교훈: 확장성 및 내결함성
1.4.1 분산 시스템에서 상태 기반 스트림 처리
1.5.1 첫 번째 물결: 기능적 API1.5.2 두 번째 물결: SQL1.5.3 통합 엔진1.5.4 스파크 컴포넌트1.5.5 스파크 스트리밍
1.6 다음엔 무엇을 배울까
2.3 변환과 집계
2.4.1 텀블링 윈도우2.4.2 슬라이딩 윈도우
2.6 상태 기반 스트림
2.7.1 스트림 변환으로서 피보나치 수열의 비상태 정의
2.9.1 타임스탬프 이벤트에 대한 연산2.9.2 시간 개념의 제공자로서의 타임스탬프2.9.3 이벤트 시간과 처리 시간2.9.4 워터마크를 사용한 컴퓨팅
3.3 스트리밍 애플리케이션에서 배치 처리 구성 요소의 사용
3.4.1 람다 아키텍처3.4.2 카파 아키텍처
3.5.1 스트리밍 알고리즘은 때때로 완전히 다르다3.5.2 스트리밍 알고리즘이 배치 알고리즘에 비해 잘 측정한다고 보장할 수는 없다
4.1 두 API 이야기
4.2.1 실패 복구4.2.2 지연 평가4.2.3 캐시 힌트
4.4 처리량 지향 처리
4.8 요약
5.1.1 클러스터 매니저의 예
5.3.1 장애 복구5.3.2 내고장성에 대한 클러스터 매니저 지원
5.5.1 마이크로배칭: 대량 동기화 처리의 적용5.5.2 한 번에 한 레코드 처리
5.6 마이크로배치와 한 번에 한 레코드 처리 방식을 더욱 가깝게 만들기
5.8 구조적 스트리밍 처리 모델5.8.1 배치 간격의 소멸
6.1 스파크의 탄력적인 분산 데이터셋
6.3.1 태스크 실패 복구6.3.2 스테이지 실패 복구6.3.3 드라이버 실패 복구
7.3.1 스트림에 연결하기7.3.2 스트림에서 데이터 준비하기7.3.3 스트리밍 데이터셋에 대한 작업7.3.4 쿼리 작성하기7.3.5 스트림 처리 시작하기
7.4 요약
8.2 소스: 스트리밍 데이터 수집
8.3 스트리밍 데이터 변환8.3.1 데이터프레임 API에서의 스트리밍 API 제한
8.4.1 format8.4.2 outputMode8.4.3 queryName8.4.4 option8.4.5 options8.4.6 trigger
8.5 요약
10.1 소스의 이해10.1.1 신뢰할 수 있는 소스는 지속 가능해야 한다10.1.2 소스는 스키마를 제공해야 한다
10.3.1 파일 형식 지정하기10.3.2 공통 옵션10.3.3 일반적인 텍스트 파싱 옵션(CSV, JSON)10.3.4 JSON 파일 소스 형식
10.3.5 CSV 파일 소스 형식10.3.6 파케이 파일 소스 형식10.3.7 텍스트 파일 소스 형식
10.4.1 카프카 소스 설정10.4.2 토픽 구독 메서드 선택하기10.4.3 카프카 소스 옵션 구성10.4.4 카프카 소비자 옵션
10.5.1 구성
10.6 레이트 소스10.6.1 옵션
11.1 싱크의 이해
11.2.1 신뢰할만한 싱크11.2.2 실험을 위한 싱크11.2.3 싱크 API
11.3 파일 싱크 (1/2)11.3.1 파일 싱크와 함께 트리거 사용하기11.3.2 지원되는 모든 파일 형식에서의 공통 구성 옵션
11.3.3 일반적인 시간과 날짜 형식(CSV, JSON)11.3.4 파일 싱크의 CSV 형식11.3.5 JSON 파일 싱크 형식11.3.6 파케이 파일 싱크 형식11.3.7 텍스트 파일 싱크 형식
11.4.1 카프카 발행 모델 이해하기11.4.2 카프카 싱크 사용하기
11.6 콘솔 싱크11.6.1 옵션11.6.2 출력 모드
11.7.1 ForeachWriter 인터페이스11.7.2 TCPWriter 싱크: 실용적인 ForeachWriter 예제
11.7.3 이 예제의 교훈11.7.4 ForeachWriter 직렬화 문제 해결
12.5.1 시간 기반 윈도우 정의하기12.5.2 간격이 어떻게 계산되는지에 대한 이해12.5.3 복합 집계키 사용12.5.4 텀블링 윈도우와 슬라이딩 윈도우
12.7 요약
13.2 상태 작동을 통한 그룹의 이해13.2.1 내부 상태 흐름
13.4.1 출력 모드13.4.2 시간 경과에 따른 상태 관리
14.1.1 구조적 스트리밍 메트릭
14.2.1 StreamingQueryProgress를 사용하여 메트릭 가져오기
14.3.1 StreamingQueryListener 구현
15.1 연속형 처리15.1.1 연속형 처리 이해15.1.2 연속형 처리 사용하기15.1.3 제약 사항
15.2.1 학습과 활용15.2.2 머신러닝 모델을 스트림에 적용하기15.2.3 예제: 주변 센서를 사용하여 객실 점유율 추정
15.2.4 온라인 트레이닝
16.1.1 프로그래밍 모델로서의 DStream
16.2 스파크 스트리밍 애플리케이션의 구조16.2.1 스파크 스트리밍 컨텍스트 생성16.2.2 DStream 정의16.2.3 출력 작업 정의16.2.4 스파크 스트리밍 컨텍스트 시작하기
16.3 요약
17.1 DStream의 기본 추상화로서의 RDD
18.1 대량 동기화 아키텍처
18.2.1 리시버 API18.2.2 리시버는 어떻게 동작하는가18.2.3 리시버의 데이터 흐름18.2.4 내부 데이터 복원력18.2.5 리시버 병렬
18.2.6 밸런싱 리소스: 리시버와 프로세싱 코어18.2.7 미리 쓰기 로그를 통한 데이터 손실 제로화 달성
19.1.1 기본 소스19.1.2 리시버 기반 소스19.1.3 직접 소스
19.3 파일 소스19.3.1 작동 방식
19.4.1 작동 방식19.4.2 단위 테스트에 큐 소스 사용하기19.4.3 큐 소스에 대한 단순한 대안: ConstantInputDStream
19.6 카프카 소스19.6.1 카프카 소스 사용하기19.6.2 동작 원리
20.1 출력 연산
20.2.1 print20.2.2 saveAsxyz
20.3 프로그래밍 가능한 싱크로서 foreachRDD 사용하기
21.1 윈도우 집계
21.2.1 윈도우 길이와 배치 간격
21.3.1 슬라이딩 윈도우와 배치 간격21.3.2 슬라이딩 윈도우와 텀블링 윈도우
21.5.1 reduceByWindow21.5.2 reduceByKeyAndWindow21.5.3 countByWindow
21.6 가역 윈도우 집계
22.1 스트림 규모의 상태 기반
22.3.1 성능22.3.2 메모리 사용량
23.2.1 예제: 파케이에 스트리밍 데이터 쓰기
23.3.1 조인을 사용하여 입력 스트림을 풍부하게 만들기
23.5.1 참조 데이터셋으로 예제 강화하기
24.4 체크포인팅 비용
25.2.1 입력 속도 차트25.2.2 스케줄링 지연 차트25.2.3 처리 시간 차트25.2.4 전체 지연 차트25.2.5 배치 상세
25.3.1 모니터링 REST API 사용하기25.3.2 모니터링 REST API에 의해 노출되는 정보
25.5.1 이벤트 버스와 상호작용
26.1 스파크 스트리밍의 성능 밸런스26.1.1 배치 간격과 처리 지연 간의 관계26.1.2 실패한 잡의 마지막 순간26.1.3 자세히 살펴보기: 스케줄링 지연과 처리 지연26.1.4 처리 시간에 대한 체크포인트 영향
26.5 고정 속도 스로틀링을 통한 데이터 수신 제한
26.7.1 백프레셔 PID 튜닝26.7.2 사용자 정의 속도 추정기26.7.3 대안 동적 처리 전략에 대한 참고 사항
27.1.1 정확성
27.1.3 빅데이터27.2 정확성, 실시간 그리고 빅데이터 삼각형27.2.1 빅데이터와 실시간
27.4 해싱과 스케칭: 소개
27.5.1 역할극 연습: 만약 우리가 시스템 관리자라면27.5.2 스파크의 실용적인 HyperLogLog
27.6.1 블룸 필터 소개27.6.2 블룸 필터와 스파크27.6.3 Count-Min 스케치로 빈도수 계산
27.7.1 스파크에서 T-다이제스트
27.8.1 랜덤 샘플링27.8.2 계층화된 샘플링
28.1.1 streamDM 소개28.1.2 실전에서의 나이브 베이즈28.1.3 영화 리뷰 분류기 학습
28.3.1 실전 스파크 상에서의 Hoeffding 트리
28.4.1 K-평균 클러스터링28.4.2 온라인 데이터와 K-평균28.4.3 감쇠 클러스터의 문제점28.4.4 스파크 스트리밍으로 K-평균 스트리밍
29.1 아파치 스톰29.1.1 처리 모델29.1.2 스톰 토폴로지29.1.3 스톰 클러스터29.1.4 스파크와의 비교
29.2.1 스트리밍 우선 프레임워크29.2.2 스파크와의 비교
29.3.1 카프카 스트림 프로그래밍 모델29.3.2 스파크와의 비교
29.4.1 AWS의 아마존 키네시스29.4.2 마이크로소프트 애저 스트리밍 분석29.4.3 아파치 빔/구글 클라우드 데이터플로
30.1.1 스택 오버플로에서 도움 구하기30.1.2 메일링 리스트에서 토론 시작하기
30.2 밋업에 참석하기30.2.1 관련 서적 읽기

Content preview from 스파크를 활용한 실시간 처리: 실시간 데이터 처리를 위한 고수준 스트리밍 API 마스터하기

101

장

스파크의 복원력 모델

대부분의 경우 스트리밍 잡은 길게 실행된다. 정의에 따르면 관찰되고 처리된 데이터의 스트림

은 시간이 지남에 따라 지속적으로 실행되는 잡으로 이어진다. 데이터를 처리할 때 데이터가 처

리 시스템을 떠난 후 재생산하기 어려운 중간 결과를 축적할 수 있다. 따라서 실패 비용은 상당

하며 경우에 따라서는 완전한 회복이 어려운 경우도 있다.

분산 시스템, 특히 일반 하드웨어에 의존하는 시스템에서는 실패가 크기의 함수다. 시스템이 클

수록 특정 구성 요소가 언제든지 고장이 발생할 (실패할 ) 확률이 높아진다. 분산 스트림 프로세

서는 이러한 운영 모델의 실패 가능성을 고려해야 한다.

이 장에서는 아파치 스파크 플랫폼이 제공하는 복원력, 즉 부분적 실패를 어떻게 복구할 수 있는

지, 장애가 발생했을 때 시스템을 통과하는 데이터에 대해 어떤 종류의 보장을 받을 수 있는지

살펴본다. 우리는 스파크의 다양한 내부 구성 요소와 핵심 데이터 구조와의 관계에 대한 개요를

얻는 것으로 시작한다. 이 지식을 가지고 다양한 수준에서 실패의 영향과 스파크가 그러한 실패

로부터 회복하기 위해 제공하는 조치들에 대해 계속 이해해 나갈 수 있다.

6.1

스파크의 탄력적인 분산 데이터셋

스파크는 탄력적 분산 데이터셋

Resilient

Distributed

Dataset ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Start your free trial

한 권으로 끝내는 Node & Express(2판): 모던 웹을 위한 서버 사이드 자바스크립트의 모든 것

한선용, 이선 브라운

자바 마이크로서비스를 활용한 SRE : 기업에서 신뢰할 수 있는 마이크로서비스를 위한 패턴

조너선 슈나이더

머신러닝 디자인 패턴: 효율적인 머신러닝 파이프라인과 MLOps를 구축하는 30가지 디자인 패턴

맹윤호, 임지순, 발리아파 락슈마난, 세라 로빈슨, 마이클 먼

자바로 배우는 핵심 자료구조와 알고리즘: 기술 면접에 필요한 실용주의 자료구조와 알고리즘

유동환, 앨런 B. 다우니

Publisher Resources

ISBN: 9791162243961