book

스파크를 활용한 실시간 처리: 실시간 데이터 처리를 위한 고수준 스트리밍 API 마스터하기

by 김인범, 제러드 마스, 프랑수아 가릴로

April 2021

Beginner to intermediate

472 pages

9h 23m

Korean

Hanbit Media, Inc.

Read now

Unlock full access

1.1.1 배치 처리와 스트림 처리1.1.2 스트림 처리에서 시간의 개념
1.2 스트림 처리 예제
1.3.1 맵리듀스1.3.2 교훈: 확장성 및 내결함성
1.4.1 분산 시스템에서 상태 기반 스트림 처리
1.5.1 첫 번째 물결: 기능적 API1.5.2 두 번째 물결: SQL1.5.3 통합 엔진1.5.4 스파크 컴포넌트1.5.5 스파크 스트리밍
1.6 다음엔 무엇을 배울까
2.3 변환과 집계
2.4.1 텀블링 윈도우2.4.2 슬라이딩 윈도우
2.6 상태 기반 스트림
2.7.1 스트림 변환으로서 피보나치 수열의 비상태 정의
2.9.1 타임스탬프 이벤트에 대한 연산2.9.2 시간 개념의 제공자로서의 타임스탬프2.9.3 이벤트 시간과 처리 시간2.9.4 워터마크를 사용한 컴퓨팅
3.3 스트리밍 애플리케이션에서 배치 처리 구성 요소의 사용
3.4.1 람다 아키텍처3.4.2 카파 아키텍처
3.5.1 스트리밍 알고리즘은 때때로 완전히 다르다3.5.2 스트리밍 알고리즘이 배치 알고리즘에 비해 잘 측정한다고 보장할 수는 없다
4.1 두 API 이야기
4.2.1 실패 복구4.2.2 지연 평가4.2.3 캐시 힌트
4.4 처리량 지향 처리
4.8 요약
5.1.1 클러스터 매니저의 예
5.3.1 장애 복구5.3.2 내고장성에 대한 클러스터 매니저 지원
5.5.1 마이크로배칭: 대량 동기화 처리의 적용5.5.2 한 번에 한 레코드 처리
5.6 마이크로배치와 한 번에 한 레코드 처리 방식을 더욱 가깝게 만들기
5.8 구조적 스트리밍 처리 모델5.8.1 배치 간격의 소멸
6.1 스파크의 탄력적인 분산 데이터셋
6.3.1 태스크 실패 복구6.3.2 스테이지 실패 복구6.3.3 드라이버 실패 복구
7.3.1 스트림에 연결하기7.3.2 스트림에서 데이터 준비하기7.3.3 스트리밍 데이터셋에 대한 작업7.3.4 쿼리 작성하기7.3.5 스트림 처리 시작하기
7.4 요약
8.2 소스: 스트리밍 데이터 수집
8.3 스트리밍 데이터 변환8.3.1 데이터프레임 API에서의 스트리밍 API 제한
8.4.1 format8.4.2 outputMode8.4.3 queryName8.4.4 option8.4.5 options8.4.6 trigger
8.5 요약
10.1 소스의 이해10.1.1 신뢰할 수 있는 소스는 지속 가능해야 한다10.1.2 소스는 스키마를 제공해야 한다
10.3.1 파일 형식 지정하기10.3.2 공통 옵션10.3.3 일반적인 텍스트 파싱 옵션(CSV, JSON)10.3.4 JSON 파일 소스 형식
10.3.5 CSV 파일 소스 형식10.3.6 파케이 파일 소스 형식10.3.7 텍스트 파일 소스 형식
10.4.1 카프카 소스 설정10.4.2 토픽 구독 메서드 선택하기10.4.3 카프카 소스 옵션 구성10.4.4 카프카 소비자 옵션
10.5.1 구성
10.6 레이트 소스10.6.1 옵션
11.1 싱크의 이해
11.2.1 신뢰할만한 싱크11.2.2 실험을 위한 싱크11.2.3 싱크 API
11.3 파일 싱크 (1/2)11.3.1 파일 싱크와 함께 트리거 사용하기11.3.2 지원되는 모든 파일 형식에서의 공통 구성 옵션
11.3.3 일반적인 시간과 날짜 형식(CSV, JSON)11.3.4 파일 싱크의 CSV 형식11.3.5 JSON 파일 싱크 형식11.3.6 파케이 파일 싱크 형식11.3.7 텍스트 파일 싱크 형식
11.4.1 카프카 발행 모델 이해하기11.4.2 카프카 싱크 사용하기
11.6 콘솔 싱크11.6.1 옵션11.6.2 출력 모드
11.7.1 ForeachWriter 인터페이스11.7.2 TCPWriter 싱크: 실용적인 ForeachWriter 예제
11.7.3 이 예제의 교훈11.7.4 ForeachWriter 직렬화 문제 해결
12.5.1 시간 기반 윈도우 정의하기12.5.2 간격이 어떻게 계산되는지에 대한 이해12.5.3 복합 집계키 사용12.5.4 텀블링 윈도우와 슬라이딩 윈도우
12.7 요약
13.2 상태 작동을 통한 그룹의 이해13.2.1 내부 상태 흐름
13.4.1 출력 모드13.4.2 시간 경과에 따른 상태 관리
14.1.1 구조적 스트리밍 메트릭
14.2.1 StreamingQueryProgress를 사용하여 메트릭 가져오기
14.3.1 StreamingQueryListener 구현
15.1 연속형 처리15.1.1 연속형 처리 이해15.1.2 연속형 처리 사용하기15.1.3 제약 사항
15.2.1 학습과 활용15.2.2 머신러닝 모델을 스트림에 적용하기15.2.3 예제: 주변 센서를 사용하여 객실 점유율 추정
15.2.4 온라인 트레이닝
16.1.1 프로그래밍 모델로서의 DStream
16.2 스파크 스트리밍 애플리케이션의 구조16.2.1 스파크 스트리밍 컨텍스트 생성16.2.2 DStream 정의16.2.3 출력 작업 정의16.2.4 스파크 스트리밍 컨텍스트 시작하기
16.3 요약
17.1 DStream의 기본 추상화로서의 RDD
18.1 대량 동기화 아키텍처
18.2.1 리시버 API18.2.2 리시버는 어떻게 동작하는가18.2.3 리시버의 데이터 흐름18.2.4 내부 데이터 복원력18.2.5 리시버 병렬
18.2.6 밸런싱 리소스: 리시버와 프로세싱 코어18.2.7 미리 쓰기 로그를 통한 데이터 손실 제로화 달성
19.1.1 기본 소스19.1.2 리시버 기반 소스19.1.3 직접 소스
19.3 파일 소스19.3.1 작동 방식
19.4.1 작동 방식19.4.2 단위 테스트에 큐 소스 사용하기19.4.3 큐 소스에 대한 단순한 대안: ConstantInputDStream
19.6 카프카 소스19.6.1 카프카 소스 사용하기19.6.2 동작 원리
20.1 출력 연산
20.2.1 print20.2.2 saveAsxyz
20.3 프로그래밍 가능한 싱크로서 foreachRDD 사용하기
21.1 윈도우 집계
21.2.1 윈도우 길이와 배치 간격
21.3.1 슬라이딩 윈도우와 배치 간격21.3.2 슬라이딩 윈도우와 텀블링 윈도우
21.5.1 reduceByWindow21.5.2 reduceByKeyAndWindow21.5.3 countByWindow
21.6 가역 윈도우 집계
22.1 스트림 규모의 상태 기반
22.3.1 성능22.3.2 메모리 사용량
23.2.1 예제: 파케이에 스트리밍 데이터 쓰기
23.3.1 조인을 사용하여 입력 스트림을 풍부하게 만들기
23.5.1 참조 데이터셋으로 예제 강화하기
24.4 체크포인팅 비용
25.2.1 입력 속도 차트25.2.2 스케줄링 지연 차트25.2.3 처리 시간 차트25.2.4 전체 지연 차트25.2.5 배치 상세
25.3.1 모니터링 REST API 사용하기25.3.2 모니터링 REST API에 의해 노출되는 정보
25.5.1 이벤트 버스와 상호작용
26.1 스파크 스트리밍의 성능 밸런스26.1.1 배치 간격과 처리 지연 간의 관계26.1.2 실패한 잡의 마지막 순간26.1.3 자세히 살펴보기: 스케줄링 지연과 처리 지연26.1.4 처리 시간에 대한 체크포인트 영향
26.5 고정 속도 스로틀링을 통한 데이터 수신 제한
26.7.1 백프레셔 PID 튜닝26.7.2 사용자 정의 속도 추정기26.7.3 대안 동적 처리 전략에 대한 참고 사항
27.1.1 정확성
27.1.3 빅데이터27.2 정확성, 실시간 그리고 빅데이터 삼각형27.2.1 빅데이터와 실시간
27.4 해싱과 스케칭: 소개
27.5.1 역할극 연습: 만약 우리가 시스템 관리자라면27.5.2 스파크의 실용적인 HyperLogLog
27.6.1 블룸 필터 소개27.6.2 블룸 필터와 스파크27.6.3 Count-Min 스케치로 빈도수 계산
27.7.1 스파크에서 T-다이제스트
27.8.1 랜덤 샘플링27.8.2 계층화된 샘플링
28.1.1 streamDM 소개28.1.2 실전에서의 나이브 베이즈28.1.3 영화 리뷰 분류기 학습
28.3.1 실전 스파크 상에서의 Hoeffding 트리
28.4.1 K-평균 클러스터링28.4.2 온라인 데이터와 K-평균28.4.3 감쇠 클러스터의 문제점28.4.4 스파크 스트리밍으로 K-평균 스트리밍
29.1 아파치 스톰29.1.1 처리 모델29.1.2 스톰 토폴로지29.1.3 스톰 클러스터29.1.4 스파크와의 비교
29.2.1 스트리밍 우선 프레임워크29.2.2 스파크와의 비교
29.3.1 카프카 스트림 프로그래밍 모델29.3.2 스파크와의 비교
29.4.1 AWS의 아마존 키네시스29.4.2 마이크로소프트 애저 스트리밍 분석29.4.3 아파치 빔/구글 클라우드 데이터플로
30.1.1 스택 오버플로에서 도움 구하기30.1.2 메일링 리스트에서 토론 시작하기
30.2 밋업에 참석하기30.2.1 관련 서적 읽기

Content preview from 스파크를 활용한 실시간 처리: 실시간 데이터 처리를 위한 고수준 스트리밍 API 마스터하기

431

장

실시간 머신러닝

28.1

나이브 베이즈를 이용한 스트리밍 분류

나이브 베이즈 방법은 모든 특성 쌍 사이의 독립성에 대한 ‘순진한’ 가정과 함께 베이즈의 정리

를 적용하는 것에 근거한 지도학습 알고리즘 셋이다. 이 절에서는 이 기술을 사용하는 자연어 문

서에 대한 분류기를 자세히 살펴보고 언어에 대한 깊은 표현 없이 효율적인 분류기가 어떻게 실

현되는지 설명한다.

다항 나이브 베이즈는 데이터의 다중 클래스 분포를 위해 나이브 베이즈 알고리즘을 구현한다.

텍스트 분류에 사용되는 두 가지 고전적인 나이브 베이즈 변형 중 하나이며 다른 하나는 베르

누이

Bernoulli

모델이다.

다항 나이브 베이즈를 탐색할 때는 데이터가 단어 수 벡터로 표현되는 간단한 표현을 사용한다.

즉, 문서는 단어 주머니

bag

words

로 표현되며, 여기서 주머니

bag

는 반복되는 요소를 허용하고

문서에 나타나는 단어와 단어 발생 횟수만 반영하고 단어 순서를 버린다.

이 문서들의 모음을

라고 했을 때 그 클래스는

에 의해 주어진다.

는 분류에서 다른 클래스

를 나타낸다. 예를 들어 이메일 스팸 필터링의 전형적인 경우

에 대한 두 가지 클래스가 있다.

●

(스팸)

●

(햄, 또는 스팸 아님 )

를 가장 높은 사후 확률

posterior

probability

)

(

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Start your free trial

한 권으로 끝내는 Node & Express(2판): 모던 웹을 위한 서버 사이드 자바스크립트의 모든 것

한선용, 이선 브라운

자바 마이크로서비스를 활용한 SRE : 기업에서 신뢰할 수 있는 마이크로서비스를 위한 패턴

조너선 슈나이더

머신러닝 디자인 패턴: 효율적인 머신러닝 파이프라인과 MLOps를 구축하는 30가지 디자인 패턴

맹윤호, 임지순, 발리아파 락슈마난, 세라 로빈슨, 마이클 먼

자바로 배우는 핵심 자료구조와 알고리즘: 기술 면접에 필요한 실용주의 자료구조와 알고리즘

유동환, 앨런 B. 다우니

Publisher Resources

ISBN: 9791162243961