book

스파크를 활용한 실시간 처리: 실시간 데이터 처리를 위한 고수준 스트리밍 API 마스터하기

by 김인범, 제러드 마스, 프랑수아 가릴로

April 2021

Beginner to intermediate

472 pages

9h 23m

Korean

Hanbit Media, Inc.

Read now

Unlock full access

1.1.1 배치 처리와 스트림 처리1.1.2 스트림 처리에서 시간의 개념
1.2 스트림 처리 예제
1.3.1 맵리듀스1.3.2 교훈: 확장성 및 내결함성
1.4.1 분산 시스템에서 상태 기반 스트림 처리
1.5.1 첫 번째 물결: 기능적 API1.5.2 두 번째 물결: SQL1.5.3 통합 엔진1.5.4 스파크 컴포넌트1.5.5 스파크 스트리밍
1.6 다음엔 무엇을 배울까
2.3 변환과 집계
2.4.1 텀블링 윈도우2.4.2 슬라이딩 윈도우
2.6 상태 기반 스트림
2.7.1 스트림 변환으로서 피보나치 수열의 비상태 정의
2.9.1 타임스탬프 이벤트에 대한 연산2.9.2 시간 개념의 제공자로서의 타임스탬프2.9.3 이벤트 시간과 처리 시간2.9.4 워터마크를 사용한 컴퓨팅
3.3 스트리밍 애플리케이션에서 배치 처리 구성 요소의 사용
3.4.1 람다 아키텍처3.4.2 카파 아키텍처
3.5.1 스트리밍 알고리즘은 때때로 완전히 다르다3.5.2 스트리밍 알고리즘이 배치 알고리즘에 비해 잘 측정한다고 보장할 수는 없다
4.1 두 API 이야기
4.2.1 실패 복구4.2.2 지연 평가4.2.3 캐시 힌트
4.4 처리량 지향 처리
4.8 요약
5.1.1 클러스터 매니저의 예
5.3.1 장애 복구5.3.2 내고장성에 대한 클러스터 매니저 지원
5.5.1 마이크로배칭: 대량 동기화 처리의 적용5.5.2 한 번에 한 레코드 처리
5.6 마이크로배치와 한 번에 한 레코드 처리 방식을 더욱 가깝게 만들기
5.8 구조적 스트리밍 처리 모델5.8.1 배치 간격의 소멸
6.1 스파크의 탄력적인 분산 데이터셋
6.3.1 태스크 실패 복구6.3.2 스테이지 실패 복구6.3.3 드라이버 실패 복구
7.3.1 스트림에 연결하기7.3.2 스트림에서 데이터 준비하기7.3.3 스트리밍 데이터셋에 대한 작업7.3.4 쿼리 작성하기7.3.5 스트림 처리 시작하기
7.4 요약
8.2 소스: 스트리밍 데이터 수집
8.3 스트리밍 데이터 변환8.3.1 데이터프레임 API에서의 스트리밍 API 제한
8.4.1 format8.4.2 outputMode8.4.3 queryName8.4.4 option8.4.5 options8.4.6 trigger
8.5 요약
10.1 소스의 이해10.1.1 신뢰할 수 있는 소스는 지속 가능해야 한다10.1.2 소스는 스키마를 제공해야 한다
10.3.1 파일 형식 지정하기10.3.2 공통 옵션10.3.3 일반적인 텍스트 파싱 옵션(CSV, JSON)10.3.4 JSON 파일 소스 형식
10.3.5 CSV 파일 소스 형식10.3.6 파케이 파일 소스 형식10.3.7 텍스트 파일 소스 형식
10.4.1 카프카 소스 설정10.4.2 토픽 구독 메서드 선택하기10.4.3 카프카 소스 옵션 구성10.4.4 카프카 소비자 옵션
10.5.1 구성
10.6 레이트 소스10.6.1 옵션
11.1 싱크의 이해
11.2.1 신뢰할만한 싱크11.2.2 실험을 위한 싱크11.2.3 싱크 API
11.3 파일 싱크 (1/2)11.3.1 파일 싱크와 함께 트리거 사용하기11.3.2 지원되는 모든 파일 형식에서의 공통 구성 옵션
11.3.3 일반적인 시간과 날짜 형식(CSV, JSON)11.3.4 파일 싱크의 CSV 형식11.3.5 JSON 파일 싱크 형식11.3.6 파케이 파일 싱크 형식11.3.7 텍스트 파일 싱크 형식
11.4.1 카프카 발행 모델 이해하기11.4.2 카프카 싱크 사용하기
11.6 콘솔 싱크11.6.1 옵션11.6.2 출력 모드
11.7.1 ForeachWriter 인터페이스11.7.2 TCPWriter 싱크: 실용적인 ForeachWriter 예제
11.7.3 이 예제의 교훈11.7.4 ForeachWriter 직렬화 문제 해결
12.5.1 시간 기반 윈도우 정의하기12.5.2 간격이 어떻게 계산되는지에 대한 이해12.5.3 복합 집계키 사용12.5.4 텀블링 윈도우와 슬라이딩 윈도우
12.7 요약
13.2 상태 작동을 통한 그룹의 이해13.2.1 내부 상태 흐름
13.4.1 출력 모드13.4.2 시간 경과에 따른 상태 관리
14.1.1 구조적 스트리밍 메트릭
14.2.1 StreamingQueryProgress를 사용하여 메트릭 가져오기
14.3.1 StreamingQueryListener 구현
15.1 연속형 처리15.1.1 연속형 처리 이해15.1.2 연속형 처리 사용하기15.1.3 제약 사항
15.2.1 학습과 활용15.2.2 머신러닝 모델을 스트림에 적용하기15.2.3 예제: 주변 센서를 사용하여 객실 점유율 추정
15.2.4 온라인 트레이닝
16.1.1 프로그래밍 모델로서의 DStream
16.2 스파크 스트리밍 애플리케이션의 구조16.2.1 스파크 스트리밍 컨텍스트 생성16.2.2 DStream 정의16.2.3 출력 작업 정의16.2.4 스파크 스트리밍 컨텍스트 시작하기
16.3 요약
17.1 DStream의 기본 추상화로서의 RDD
18.1 대량 동기화 아키텍처
18.2.1 리시버 API18.2.2 리시버는 어떻게 동작하는가18.2.3 리시버의 데이터 흐름18.2.4 내부 데이터 복원력18.2.5 리시버 병렬
18.2.6 밸런싱 리소스: 리시버와 프로세싱 코어18.2.7 미리 쓰기 로그를 통한 데이터 손실 제로화 달성
19.1.1 기본 소스19.1.2 리시버 기반 소스19.1.3 직접 소스
19.3 파일 소스19.3.1 작동 방식
19.4.1 작동 방식19.4.2 단위 테스트에 큐 소스 사용하기19.4.3 큐 소스에 대한 단순한 대안: ConstantInputDStream
19.6 카프카 소스19.6.1 카프카 소스 사용하기19.6.2 동작 원리
20.1 출력 연산
20.2.1 print20.2.2 saveAsxyz
20.3 프로그래밍 가능한 싱크로서 foreachRDD 사용하기
21.1 윈도우 집계
21.2.1 윈도우 길이와 배치 간격
21.3.1 슬라이딩 윈도우와 배치 간격21.3.2 슬라이딩 윈도우와 텀블링 윈도우
21.5.1 reduceByWindow21.5.2 reduceByKeyAndWindow21.5.3 countByWindow
21.6 가역 윈도우 집계
22.1 스트림 규모의 상태 기반
22.3.1 성능22.3.2 메모리 사용량
23.2.1 예제: 파케이에 스트리밍 데이터 쓰기
23.3.1 조인을 사용하여 입력 스트림을 풍부하게 만들기
23.5.1 참조 데이터셋으로 예제 강화하기
24.4 체크포인팅 비용
25.2.1 입력 속도 차트25.2.2 스케줄링 지연 차트25.2.3 처리 시간 차트25.2.4 전체 지연 차트25.2.5 배치 상세
25.3.1 모니터링 REST API 사용하기25.3.2 모니터링 REST API에 의해 노출되는 정보
25.5.1 이벤트 버스와 상호작용
26.1 스파크 스트리밍의 성능 밸런스26.1.1 배치 간격과 처리 지연 간의 관계26.1.2 실패한 잡의 마지막 순간26.1.3 자세히 살펴보기: 스케줄링 지연과 처리 지연26.1.4 처리 시간에 대한 체크포인트 영향
26.5 고정 속도 스로틀링을 통한 데이터 수신 제한
26.7.1 백프레셔 PID 튜닝26.7.2 사용자 정의 속도 추정기26.7.3 대안 동적 처리 전략에 대한 참고 사항
27.1.1 정확성
27.1.3 빅데이터27.2 정확성, 실시간 그리고 빅데이터 삼각형27.2.1 빅데이터와 실시간
27.4 해싱과 스케칭: 소개
27.5.1 역할극 연습: 만약 우리가 시스템 관리자라면27.5.2 스파크의 실용적인 HyperLogLog
27.6.1 블룸 필터 소개27.6.2 블룸 필터와 스파크27.6.3 Count-Min 스케치로 빈도수 계산
27.7.1 스파크에서 T-다이제스트
27.8.1 랜덤 샘플링27.8.2 계층화된 샘플링
28.1.1 streamDM 소개28.1.2 실전에서의 나이브 베이즈28.1.3 영화 리뷰 분류기 학습
28.3.1 실전 스파크 상에서의 Hoeffding 트리
28.4.1 K-평균 클러스터링28.4.2 온라인 데이터와 K-평균28.4.3 감쇠 클러스터의 문제점28.4.4 스파크 스트리밍으로 K-평균 스트리밍
29.1 아파치 스톰29.1.1 처리 모델29.1.2 스톰 토폴로지29.1.3 스톰 클러스터29.1.4 스파크와의 비교
29.2.1 스트리밍 우선 프레임워크29.2.2 스파크와의 비교
29.3.1 카프카 스트림 프로그래밍 모델29.3.2 스파크와의 비교
29.4.1 AWS의 아마존 키네시스29.4.2 마이크로소프트 애저 스트리밍 분석29.4.3 아파치 빔/구글 클라우드 데이터플로
30.1.1 스택 오버플로에서 도움 구하기30.1.2 메일링 리스트에서 토론 시작하기
30.2 밋업에 참석하기30.2.1 관련 서적 읽기

Content preview from 스파크를 활용한 실시간 처리: 실시간 데이터 처리를 위한 고수준 스트리밍 API 마스터하기

401

장

스트리밍 근사 및 샘플링 알고리즘

스트림 처리는 시간이 지남에 따라 관찰된 데이터의 요약을 생성할 때 특히 어려운 문제다. 스트

림에서 값을 관찰할 수 있는 기회는 한 번뿐이므로 데이터 스트림에서 동일한 질문에 대답하려

는 경우 제한된 데이터셋에서 단순하다고 간주되는 쿼리조차도 문제가 된다.

이 문제의 핵심은 이러한 쿼리가 전체 데이터셋을 관찰해야 하는 전역 요약 형식 또는 최소 상

계

supremum

결과를 어떻게 요청하는지에 있다.

●

스트림의 모든 고유 요소 수 (요약 )

●

스트림에서 가장 높은

요소 (전역 최소 상계 )

●

스트림에서 가장 빈번한

개의 요소 (전역 최소 상계 )

당연히 데이터가 스트림에서 나오는 경우 전체 데이터셋을 한 번에 보는 데 어려움이 있다. 이러

한 종류의 쿼리는 전체 스트림을 저장한 다음 배치 데이터로 처리하여 단순하게 응답할 수 있다.

하지만 이 스토리지가 항상 가능한 것은 아닐 뿐만 아니라 손이 많이 가는 접근법이기도 하다.

보다시피 스트림의 주요 수치와 특성을 반영하는 간결한 데이터 표현을 구성할 수 있다. 이 간결

함은 그들이 반환하는 응답의 정확성으로 측정된 비용을 가진다. 이러한 데이터 구조와 그것들

을 작동시키는 알고리즘은 특정한 오차 범위와 함께 근사 결과를 반환한다. 요약해서 말하면 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Start your free trial

한 권으로 끝내는 Node & Express(2판): 모던 웹을 위한 서버 사이드 자바스크립트의 모든 것

한선용, 이선 브라운

자바 마이크로서비스를 활용한 SRE : 기업에서 신뢰할 수 있는 마이크로서비스를 위한 패턴

조너선 슈나이더

머신러닝 디자인 패턴: 효율적인 머신러닝 파이프라인과 MLOps를 구축하는 30가지 디자인 패턴

맹윤호, 임지순, 발리아파 락슈마난, 세라 로빈슨, 마이클 먼

자바로 배우는 핵심 자료구조와 알고리즘: 기술 면접에 필요한 실용주의 자료구조와 알고리즘

유동환, 앨런 B. 다우니

Publisher Resources

ISBN: 9791162243961