book

Apache Flink를 사용한 스트림 처리

Name: Apache Flink를 사용한 스트림 처리
ISBN: 9798341653726

by Fabian Hueske, Vasiliki Kalavri

May 2025

Beginner to intermediate

310 pages

5h 16m

Korean

O'Reilly Media, Inc.

Read now

Unlock full access

서문
이 책에서 배울 내용이 책에서 사용된 규칙코드 예제 사용오라일리 온라인 학습문의 방법감사
1. 스테이트풀 스트림 처리 소개
기존 데이터 인프라트랜잭션 처리분석 처리스테이트풀 스트림 처리이벤트 기반 애플리케이션데이터 파이프라인스트리밍 분석오픈 소스 스트림 프로세싱의 진화약간의 역사Flink에 대해 간단히 살펴보기첫 Flink 애플리케이션 실행하기요약
2. 스트림 처리 기본 사항
데이터 흐름 프로그래밍 소개데이터 흐름 그래프데이터 병렬 처리 및 작업 병렬 처리데이터 교환 전략병렬 스트림 처리지연 시간 및 처리량데이터 스트림에 대한 작업시간 의미론스트림 처리에서 1분의 의미는 무엇인가요?처리 시간이벤트 시간워터마크처리 시간 대 이벤트 시간상태 및 일관성 모델작업 실패결과 보장요약
3. Apache Flink의 아키텍처
시스템 아키텍처플링크 설정의 구성 요소애플리케이션 배포작업 실행고가용성 설정Flink에서 데이터 전송신용 기반 흐름 제어작업 체인이벤트 시간 처리타임스탬프워터마크워터마크 전파 및 이벤트 시간타임스탬프 할당 및 워터마크 생성상태 관리운영자 상태키 상태상태 백엔드스테이트풀 연산자 확장체크포인트, 세이브포인트 및 상태 복구일관된 체크포인트일관된 체크포인트에서 복구플링크의 체크포인트 알고리즘체크포인팅의 성능 영향저장 포인트요약
4. Apache Flink 개발 환경 설정하기
필요한 소프트웨어IDE에서 Flink 애플리케이션 실행 및 디버그IDE에서 책의 예제 가져오기IDE에서 Flink 애플리케이션 실행IDE에서 Flink 애플리케이션 디버그Flink Maven 프로젝트 Bootstrap하기요약
5. DataStream API(v1.7)
안녕하세요, 플링크!실행 환경 설정입력 스트림 읽기변환 적용결과 출력실행변환기본 변환키스트림 변환멀티스트림 변환배포 혁신병렬 처리 설정유형지원되는 데이터 유형데이터 유형에 대한 유형 정보 생성명시적으로 유형 정보 제공키 및 참조 필드 정의하기필드 위치필드 표현식키 선택기기능 구현함수 클래스Lambda 함수다양한 기능외부 및 플링크 종속성 포함요약
6. 시간 기반 및 Windows 연산자
시간 특성 구성타임스탬프 할당 및 워터마크 생성하기워터마크, 지연 시간 및 완전성프로세스 기능타이머 서비스 및 타이머사이드 출력으로 방출코프로세스 함수Windows 연산자Windows 연산자 정의하기내장된 Windows 할당자Windows에서 함수 적용하기Windows 연산자 사용자 지정하기정시에 스트림에 참여하기간격 조인Windows 조인늦은 데이터 처리늦은 이벤트 삭제늦은 이벤트 리디렉션늦은 이벤트를 포함하여 결과 업데이트하기요약
7. 스테이트풀 오퍼레이터 및 애플리케이션
스테이트풀 함수 구현런타임 컨텍스트에서 키 상태 선언하기연산자 리스트 상태 구현하기(ListCheckpointed 인터페이스)연결된 생방송 상태 사용체크포인트 함수 인터페이스 사용완료된 체크포인트에 대한 알림 받기스테이트풀 애플리케이션을 위한 장애 복구 활성화스테이트풀 애플리케이션의 유지보수성 보장고유 사업자 식별자 지정키 상태 연산자의 최대 병렬성 정의하기스테이트풀 애플리케이션의 성능 및 견고성상태 백엔드 선택상태 프리미티브 선택상태 누수 방지진화하는 스테이트풀 애플리케이션기존 상태를 수정하지 않고 애플리케이션 업데이트하기애플리케이션에서 상태 제거하기오퍼레이터 상태 수정하기쿼리 가능한 상태아키텍처 및 쿼리 가능한 상태 활성화쿼리 가능한 상태 노출외부 애플리케이션에서 상태 쿼리하기요약
8. 외부 시스템에서 읽기 및 쓰기
애플리케이션 일관성 보장무력한 쓰기트랜잭션 쓰기제공된 커넥터Apache Kafka 소스 커넥터Apache Kafka 싱크 커넥터파일시스템 소스 커넥터파일시스템 싱크 커넥터Apache Cassandra 싱크 커넥터사용자 정의 소스 함수 구현리셋 가능한 소스 함수소스 함수, 타임스탬프 및 워터마크사용자 지정 싱크 기능 구현무전원 싱크 커넥터트랜잭션 싱크 커넥터외부 시스템에 비동기적으로 액세스요약
9. 스트리밍 애플리케이션을 위한 Flink 설정
배포 모드독립형 클러스터DockerApache Hadoop YARNKubernetes고가용성 설정HA 독립 실행형 설정HA YARN 설정HA Kubernetes 설정Hadoop 구성 요소와의 통합파일 시스템 구성시스템 구성Java 및 클래스 로딩CPU메인 메모리 및 네트워크 버퍼디스크 스토리지체크포인트 및 상태 백엔드보안요약

10. 플링크 및 스트리밍 애플리케이션 운영
스트리밍 애플리케이션 실행 및 관리저장 포인트명령줄 클라이언트로 애플리케이션 관리하기REST API로 애플리케이션 관리하기컨테이너 내 애플리케이션 번들링 및 배포작업 예약 제어작업 체인 제어슬롯 공유 그룹 정의체크포인트 및 복구 조정체크포인트 구성상태 백엔드 구성복구 구성Flink 클러스터 및 애플리케이션 모니터링Flink 웹 UI미터법지연 시간 모니터링로깅 동작 구성요약
11. 어디로 가야 할까요?
플링크 생태계의 나머지 부분일괄 처리를 위한 DataSet API관계형 분석을 위한 테이블 API 및 SQL복잡한 이벤트 처리 및 패턴 매칭을 위한 FlinkCEP그래프 처리용 젤리환영하는 커뮤니티
색인

Content preview from Apache Flink를 사용한 스트림 처리

11장. 어디로 가야 할까요?

이 작품은 AI를 사용하여 번역되었습니다. 여러분의 피드백과 의견을 환영합니다: translation-feedback@oreilly.com

긴 여정을 거쳐 이 책의 마지막 장까지 읽으셨습니다! 하지만 Flink 여정은 이제 막 시작되었으며, 이 장에서는 여기서부터 가능한 경로를 안내합니다. 이 책에 포함되지 않은 Flink의 추가 기능에 대해 간략하게 살펴보고 추가 Flink 리소스에 대한 몇 가지 팁을 제공합니다. Flink를 중심으로 활발한 커뮤니티가 존재하므로 다른 사용자들과 교류하고, 기여를 시작하거나, Flink로 어떤 회사가 어떤 작업을 하고 있는지 알아보고 자신의 작업에 영감을 얻으시기 바랍니다.

플링크 생태계의 나머지 부분

이 책은 특히 스트림 처리에 초점을 맞추고 있지만, Flink는 사실 범용 분산 데이터 처리 프레임워크이며 다른 유형의 데이터 분석에도 사용할 수 있습니다. 또한 Flink는 관계형 쿼리, 복잡한 이벤트 처리(CEP), 그래프 처리를 위한 도메인별 라이브러리와 API를 제공합니다.

일괄 처리를 위한 DataSet API

Flink 는 본격적인 배치 프로세서로, 한정된 입력 데이터에 대한 일회성 또는 주기적 쿼리가 필요한 사용 사례를 구현하는 데 사용할 수 있습니다. 데이터셋 프로그램은 데이터스트림 프로그램과 마찬가지로 일련의 변환으로 지정되지만, 데이터셋은 제한된 데이터 컬렉션이라는 차이점이 있습니다. DataSet API는 필터링, 매핑, 선택, 조인 및 그룹화를 수행할 수 있는 연산자와 파일 시스템 및 데이터베이스와 같은 외부 시스템에서 데이터 집합을 읽고 쓸 수 있는 커넥터를 제공합니다. 또한 데이터세트 API를 사용하면 고정된 단계 수 동안 또는 수렴 기준이 충족될 때까지 루프 함수를 실행하는 반복적인 Flink 프로그램을 정의할 수 있습니다.

배치 작업은 내부적으로 데이터 흐름 프로그램으로 표현되며 스트리밍 작업과 동일한 기본 실행 런타임에서 실행됩니다. 현재 두 API는 별도의 실행 환경을 사용하며 혼합할 수 없습니다. 그러나 Flink 커뮤니티는 이미 이 두 가지를 통합하기 위해 노력하고 있으며, 동일한 프로그램에서 바운드 및 언바운드 데이터 스트림 분석을 위한 단일 API를 제공하는 것은 Flink의 향후 로드맵에서 우선 순위가 높은 과제입니다.

관계형 분석을 위한 테이블 API 및 SQL

기본 데이터스트림과 데이터세트 API는 분리되어 있지만, 상위 관계형 API를 사용하여 Flink에서 통합 스트림 및 배치 분석을 구현할 수 있습니다: Table API와 SQL.

Table API는 Scala 및 Java용 언어 통합 쿼리(LINQ) API입니다. 쿼리는 수정 없이 일괄 또는 스트리밍 분석을 위해 실행할 수 있습니다. 선택, 투영, 집계, 조인 등 관계형 쿼리를 작성하기 위한 공통 연산자를 제공하며, 자동 완성 및 구문 유효성 검사를 위한 IDE 지원도 제공합니다.

Flink SQL은 ANSI SQL 표준을 따르며, 쿼리 구문 분석 및 최적화를 위해 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9798341653726

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business