book

스파크를 활용한 실시간 처리: 실시간 데이터 처리를 위한 고수준 스트리밍 API 마스터하기

by 김인범, 제러드 마스, 프랑수아 가릴로

April 2021

Beginner to intermediate

472 pages

9h 23m

Korean

Hanbit Media, Inc.

Read now

Unlock full access

1.1.1 배치 처리와 스트림 처리1.1.2 스트림 처리에서 시간의 개념
1.2 스트림 처리 예제
1.3.1 맵리듀스1.3.2 교훈: 확장성 및 내결함성
1.4.1 분산 시스템에서 상태 기반 스트림 처리
1.5.1 첫 번째 물결: 기능적 API1.5.2 두 번째 물결: SQL1.5.3 통합 엔진1.5.4 스파크 컴포넌트1.5.5 스파크 스트리밍
1.6 다음엔 무엇을 배울까
2.3 변환과 집계
2.4.1 텀블링 윈도우2.4.2 슬라이딩 윈도우
2.6 상태 기반 스트림
2.7.1 스트림 변환으로서 피보나치 수열의 비상태 정의
2.9.1 타임스탬프 이벤트에 대한 연산2.9.2 시간 개념의 제공자로서의 타임스탬프2.9.3 이벤트 시간과 처리 시간2.9.4 워터마크를 사용한 컴퓨팅
3.3 스트리밍 애플리케이션에서 배치 처리 구성 요소의 사용
3.4.1 람다 아키텍처3.4.2 카파 아키텍처
3.5.1 스트리밍 알고리즘은 때때로 완전히 다르다3.5.2 스트리밍 알고리즘이 배치 알고리즘에 비해 잘 측정한다고 보장할 수는 없다
4.1 두 API 이야기
4.2.1 실패 복구4.2.2 지연 평가4.2.3 캐시 힌트
4.4 처리량 지향 처리
4.8 요약
5.1.1 클러스터 매니저의 예
5.3.1 장애 복구5.3.2 내고장성에 대한 클러스터 매니저 지원
5.5.1 마이크로배칭: 대량 동기화 처리의 적용5.5.2 한 번에 한 레코드 처리
5.6 마이크로배치와 한 번에 한 레코드 처리 방식을 더욱 가깝게 만들기
5.8 구조적 스트리밍 처리 모델5.8.1 배치 간격의 소멸
6.1 스파크의 탄력적인 분산 데이터셋
6.3.1 태스크 실패 복구6.3.2 스테이지 실패 복구6.3.3 드라이버 실패 복구
7.3.1 스트림에 연결하기7.3.2 스트림에서 데이터 준비하기7.3.3 스트리밍 데이터셋에 대한 작업7.3.4 쿼리 작성하기7.3.5 스트림 처리 시작하기
7.4 요약
8.2 소스: 스트리밍 데이터 수집
8.3 스트리밍 데이터 변환8.3.1 데이터프레임 API에서의 스트리밍 API 제한
8.4.1 format8.4.2 outputMode8.4.3 queryName8.4.4 option8.4.5 options8.4.6 trigger
8.5 요약
10.1 소스의 이해10.1.1 신뢰할 수 있는 소스는 지속 가능해야 한다10.1.2 소스는 스키마를 제공해야 한다
10.3.1 파일 형식 지정하기10.3.2 공통 옵션10.3.3 일반적인 텍스트 파싱 옵션(CSV, JSON)10.3.4 JSON 파일 소스 형식
10.3.5 CSV 파일 소스 형식10.3.6 파케이 파일 소스 형식10.3.7 텍스트 파일 소스 형식
10.4.1 카프카 소스 설정10.4.2 토픽 구독 메서드 선택하기10.4.3 카프카 소스 옵션 구성10.4.4 카프카 소비자 옵션
10.5.1 구성
10.6 레이트 소스10.6.1 옵션
11.1 싱크의 이해
11.2.1 신뢰할만한 싱크11.2.2 실험을 위한 싱크11.2.3 싱크 API
11.3 파일 싱크 (1/2)11.3.1 파일 싱크와 함께 트리거 사용하기11.3.2 지원되는 모든 파일 형식에서의 공통 구성 옵션
11.3.3 일반적인 시간과 날짜 형식(CSV, JSON)11.3.4 파일 싱크의 CSV 형식11.3.5 JSON 파일 싱크 형식11.3.6 파케이 파일 싱크 형식11.3.7 텍스트 파일 싱크 형식
11.4.1 카프카 발행 모델 이해하기11.4.2 카프카 싱크 사용하기
11.6 콘솔 싱크11.6.1 옵션11.6.2 출력 모드
11.7.1 ForeachWriter 인터페이스11.7.2 TCPWriter 싱크: 실용적인 ForeachWriter 예제
11.7.3 이 예제의 교훈11.7.4 ForeachWriter 직렬화 문제 해결
12.5.1 시간 기반 윈도우 정의하기12.5.2 간격이 어떻게 계산되는지에 대한 이해12.5.3 복합 집계키 사용12.5.4 텀블링 윈도우와 슬라이딩 윈도우
12.7 요약
13.2 상태 작동을 통한 그룹의 이해13.2.1 내부 상태 흐름
13.4.1 출력 모드13.4.2 시간 경과에 따른 상태 관리
14.1.1 구조적 스트리밍 메트릭
14.2.1 StreamingQueryProgress를 사용하여 메트릭 가져오기
14.3.1 StreamingQueryListener 구현
15.1 연속형 처리15.1.1 연속형 처리 이해15.1.2 연속형 처리 사용하기15.1.3 제약 사항
15.2.1 학습과 활용15.2.2 머신러닝 모델을 스트림에 적용하기15.2.3 예제: 주변 센서를 사용하여 객실 점유율 추정
15.2.4 온라인 트레이닝
16.1.1 프로그래밍 모델로서의 DStream
16.2 스파크 스트리밍 애플리케이션의 구조16.2.1 스파크 스트리밍 컨텍스트 생성16.2.2 DStream 정의16.2.3 출력 작업 정의16.2.4 스파크 스트리밍 컨텍스트 시작하기
16.3 요약
17.1 DStream의 기본 추상화로서의 RDD
18.1 대량 동기화 아키텍처
18.2.1 리시버 API18.2.2 리시버는 어떻게 동작하는가18.2.3 리시버의 데이터 흐름18.2.4 내부 데이터 복원력18.2.5 리시버 병렬
18.2.6 밸런싱 리소스: 리시버와 프로세싱 코어18.2.7 미리 쓰기 로그를 통한 데이터 손실 제로화 달성
19.1.1 기본 소스19.1.2 리시버 기반 소스19.1.3 직접 소스
19.3 파일 소스19.3.1 작동 방식
19.4.1 작동 방식19.4.2 단위 테스트에 큐 소스 사용하기19.4.3 큐 소스에 대한 단순한 대안: ConstantInputDStream
19.6 카프카 소스19.6.1 카프카 소스 사용하기19.6.2 동작 원리
20.1 출력 연산
20.2.1 print20.2.2 saveAsxyz
20.3 프로그래밍 가능한 싱크로서 foreachRDD 사용하기
21.1 윈도우 집계
21.2.1 윈도우 길이와 배치 간격
21.3.1 슬라이딩 윈도우와 배치 간격21.3.2 슬라이딩 윈도우와 텀블링 윈도우
21.5.1 reduceByWindow21.5.2 reduceByKeyAndWindow21.5.3 countByWindow
21.6 가역 윈도우 집계
22.1 스트림 규모의 상태 기반
22.3.1 성능22.3.2 메모리 사용량
23.2.1 예제: 파케이에 스트리밍 데이터 쓰기
23.3.1 조인을 사용하여 입력 스트림을 풍부하게 만들기
23.5.1 참조 데이터셋으로 예제 강화하기
24.4 체크포인팅 비용
25.2.1 입력 속도 차트25.2.2 스케줄링 지연 차트25.2.3 처리 시간 차트25.2.4 전체 지연 차트25.2.5 배치 상세
25.3.1 모니터링 REST API 사용하기25.3.2 모니터링 REST API에 의해 노출되는 정보
25.5.1 이벤트 버스와 상호작용
26.1 스파크 스트리밍의 성능 밸런스26.1.1 배치 간격과 처리 지연 간의 관계26.1.2 실패한 잡의 마지막 순간26.1.3 자세히 살펴보기: 스케줄링 지연과 처리 지연26.1.4 처리 시간에 대한 체크포인트 영향
26.5 고정 속도 스로틀링을 통한 데이터 수신 제한
26.7.1 백프레셔 PID 튜닝26.7.2 사용자 정의 속도 추정기26.7.3 대안 동적 처리 전략에 대한 참고 사항
27.1.1 정확성
27.1.3 빅데이터27.2 정확성, 실시간 그리고 빅데이터 삼각형27.2.1 빅데이터와 실시간
27.4 해싱과 스케칭: 소개
27.5.1 역할극 연습: 만약 우리가 시스템 관리자라면27.5.2 스파크의 실용적인 HyperLogLog
27.6.1 블룸 필터 소개27.6.2 블룸 필터와 스파크27.6.3 Count-Min 스케치로 빈도수 계산
27.7.1 스파크에서 T-다이제스트
27.8.1 랜덤 샘플링27.8.2 계층화된 샘플링
28.1.1 streamDM 소개28.1.2 실전에서의 나이브 베이즈28.1.3 영화 리뷰 분류기 학습
28.3.1 실전 스파크 상에서의 Hoeffding 트리
28.4.1 K-평균 클러스터링28.4.2 온라인 데이터와 K-평균28.4.3 감쇠 클러스터의 문제점28.4.4 스파크 스트리밍으로 K-평균 스트리밍
29.1 아파치 스톰29.1.1 처리 모델29.1.2 스톰 토폴로지29.1.3 스톰 클러스터29.1.4 스파크와의 비교
29.2.1 스트리밍 우선 프레임워크29.2.2 스파크와의 비교
29.3.1 카프카 스트림 프로그래밍 모델29.3.2 스파크와의 비교
29.4.1 AWS의 아마존 키네시스29.4.2 마이크로소프트 애저 스트리밍 분석29.4.3 아파치 빔/구글 클라우드 데이터플로
30.1.1 스택 오버플로에서 도움 구하기30.1.2 메일링 리스트에서 토론 시작하기
30.2 밋업에 참석하기30.2.1 관련 서적 읽기

Content preview from 스파크를 활용한 실시간 처리: 실시간 데이터 처리를 위한 고수준 스트리밍 API 마스터하기

부

아파치 스파크를 사용한 스트림 처리의 기본

마이크로배치 접근 방식은 기차에 비교할 수 있다. 기차는 역에 도착해서 일정 시간 동안 승객을

기다린 후 탑승한 모든 승객을 목적지까지 수송한다. 같은 궤적을 위해 자동차나 택시를 타면 승

객이 출발지부터 도착지까지 더 빠른 여행을 할 수 있지만, 기차는 훨씬 더 많은 승객을 목적지

에 도착하도록 보장한다. 기차는 일부 승객이 열차를 출발할 때까지 기다려야 하는 비용으로 동

일한 궤도에 대해 더 높은 처리량을 제공한다.

스파크 코어 엔진은 분산 배치 처리에 최적화되어 있다. 스트리밍 컨텍스트에서 그것의 적용은

시간 단위당 대량의 데이터를 처리할 수 있도록 보장한다. 스파크는 한 번에 많은 요소를 처리하

도록 하여 분산 작업 스케줄링의 오버헤드를 상쇄하며, 이 장 앞부분에서 보았듯이 인메모리 기

법, 쿼리 최적화, 캐싱 및 코드 생성까지 활용하여 데이터셋의 변환 프로세스를 가속화한다.

엔드

투

엔드 애플리케이션에서 스파크를 사용할 때 중요한 제약 조건은 처리된 데이터를 수신

하는 다운스트림 시스템도 스트리밍 프로세스에서 제공하는 전체 출력을 수용할 수 있어야 한다

는 것이다. 그렇지 않으면 갑작스런 부하 피크에 직면했을 때 종속 장애를 일으킬 수 있는 애플

리케이션 병목 현상을 발생시킬 위험이 있다.

4.5

스파크의 폴리글랏

API

앞서 아파치 스파크의 주요 설계 기초가 스트림 처리, 즉 실행 엔진 모델 내에 정의된 풍부한

API

와 인메모리 처리 모델에 영향을 미칠 때의 개요를 정리했다.

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Start your free trial

한 권으로 끝내는 Node & Express(2판): 모던 웹을 위한 서버 사이드 자바스크립트의 모든 것

한선용, 이선 브라운

자바 마이크로서비스를 활용한 SRE : 기업에서 신뢰할 수 있는 마이크로서비스를 위한 패턴

조너선 슈나이더

머신러닝 디자인 패턴: 효율적인 머신러닝 파이프라인과 MLOps를 구축하는 30가지 디자인 패턴

맹윤호, 임지순, 발리아파 락슈마난, 세라 로빈슨, 마이클 먼

자바로 배우는 핵심 자료구조와 알고리즘: 기술 면접에 필요한 실용주의 자료구조와 알고리즘

유동환, 앨런 B. 다우니

Publisher Resources

ISBN: 9791162243961