book

Kafka: The Definitive Guide, 2nd Edition

by Gwen Shapira, Todd Palino, Rajini Sivaram, Krit Petty

May 2025

Beginner to intermediate

488 pages

8h 19m

Korean

O'Reilly Media, Inc.

Book available

Read now

Unlock full access

이 책을 읽어야 하는 대상이 책에서 사용된 규칙코드 예제 사용오라일리 온라인 학습문의 방법감사
메시지 게시/구독시작 방법개별 대기열 시스템Enter Kafka메시지 및 배치스키마주제 및 파티션생산자 및 소비자브로커 및 클러스터다중 클러스터왜 Kafka인가?여러 프로듀서여러 소비자디스크 기반 보존확장성고성능플랫폼 기능데이터 에코시스템사용 사례Kafka의 기원LinkedIn의 문제Kafka의 탄생오픈 소스상업적 참여이름Kafka 시작하기
환경 설정운영 체제 선택Java 설치ZooKeeper 설치하기Kafka 브로커 설치하기브로커 구성일반 브로커 매개변수주제 기본값하드웨어 선택디스크 처리량디스크 용량메모리네트워킹CPUKafka in the CloudMicrosoft Azure아마존 웹 서비스Kafka 클러스터 구성하기브로커 수는 몇 명인가요?브로커 구성OS 튜닝프로덕션 문제가비지 수집기 옵션데이터센터 레이아웃ZooKeeper에 애플리케이션 배치하기요약
프로듀서 개요Kafka 프로듀서 구축하기Kafka에게 메시지 보내기동기식으로 메시지 보내기비동기적으로 메시지 보내기프로듀서 구성client.idacks메시지 전달 시간linger.msbuffer.memory압축 유형batch.size최대.인.비행.요청.연결당.요청 수max.request.sizereceive.buffer.bytes 및 send.buffer.bytesenable.idempotence직렬화기사용자 지정 직렬화기Apache Avro를 사용하여 직렬화하기Kafka와 함께 Avro Records 사용파티션헤더인터셉터할당량 및 스로틀링요약
Kafka 소비자 개념소비자 및 소비자 그룹소비자 그룹 및 파티션 재조정정적 그룹 멤버십Kafka 소비자 만들기토픽 구독하기투표 루프스레드 안전소비자 구성fetch.min.bytesfetch.max.wait.msfetch.max.bytesmax.poll.recordsmax.partition.fetch.bytessession.timeout.ms 및 heartbeat.interval.msmax.poll.interval.msdefault.api.timeout.msrequest.timeout.msauto.offset.resetenable.auto.commitpartition.assignment.strategyclient.idclient.rackgroup.instance.idreceive.buffer.bytes 및 send.buffer.bytes오프셋.유지.분커밋 및 오프셋자동 커밋커밋 전류 오프셋비동기 커밋동기식 커밋과 비동기식 커밋 결합하기지정된 오프셋 커밋하기리스너 재조정특정 오프셋이 있는 레코드 사용하지만 어떻게 빠져나갈 수 있을까요?역직렬화기사용자 정의 역직렬화기Avro 역직렬화를 Kafka Consumer와 함께 사용하기독립 실행형 소비자: 그룹 없이 소비자를 사용해야 하는 이유와 방법요약
관리자 클라이언트 개요비동기적이고 최종적으로 일관된 API옵션플랫 계층 구조추가 참고 사항관리자클라이언트 수명 주기: 생성, 구성 및 종료client.dns.lookuprequest.timeout.ms필수 주제 관리구성 관리소비자 그룹 관리소비자 그룹 살펴보기소비자 그룹 수정하기클러스터 메타데이터고급 관리자 작업주제에 파티션 추가하기주제에서 레코드 삭제하기리더 선거복제본 재할당테스트요약
클러스터 멤버십컨트롤러KRaft: Kafka의 새로운 뗏목 기반 컨트롤러복제요청 처리제작 요청요청 가져오기기타 요청물리적 스토리지계층형 스토리지파티션 할당파일 관리파일 형식색인압축압축 작동 방식삭제된 이벤트토픽은 언제 압축되나요?요약
신뢰성 보장복제브로커 구성복제 계수부정 지도자 선거최소 인싱크 복제본복제본 동기화 유지디스크에 지속안정적인 시스템에서 프로듀서 사용승인 보내기프로듀서 재시도 구성추가 오류 처리신뢰할 수 있는 시스템에서 소비자 사용안정적인 처리를 위한 중요한 소비자 구성 속성소비자에 명시적으로 상쇄를 커밋하기시스템 안정성 검증구성 유효성 검사애플리케이션 유효성 검사프로덕션 안정성 모니터링요약

무능력한 프로듀서무능력한 프로듀서는 어떻게 작동하나요?무능력한 프로듀서의 한계Kafka 무능력 프로듀서는 어떻게 사용하나요?거래트랜잭션 사용 사례트랜잭션은 어떤 문제를 해결하나요?거래는 어떻게 정확히 한 번만 보장되나요?트랜잭션으로 해결되지 않는 문제에는 어떤 것이 있나요?트랜잭션은 어떻게 사용하나요?트랜잭션 ID 및 펜싱트랜잭션 작동 방식거래 성능요약
데이터 파이프라인 구축 시 고려 사항적시성신뢰성높고 다양한 처리량데이터 형식변환보안장애 처리커플링과 Agile생산자와 소비자를 위한 Kafka Connect 사용 시기 비교Kafka ConnectKafka Connect 실행하기커넥터 예제: 파일 소스 및 파일 싱크커넥터 예제: MySQL에서 Elasticsearch로단일 메시지 변환Kafka Connect 자세히 살펴보기Kafka Connect의 대안다른 데이터 저장소용 수집 프레임워크GUI 기반 ETL 도구스트림 처리 프레임워크요약
클러스터 간 미러링 사용 사례멀티클러스터 아키텍처데이터센터 간 커뮤니케이션의 몇 가지 현실허브 앤 스포크 아키텍처액티브-액티브 아키텍처액티브-스탠바이 아키텍처스트레치 클러스터Apache Kafka의 MirrorMakerMirrorMaker 구성멀티클러스터 복제 토폴로지미러메이커 보안프로덕션에 MirrorMaker 배포튜닝 미러 메이커기타 클러스터 간 미러링 솔루션Uber u리플리케이터LinkedIn 브루클린컨플루언트 데이터센터 간 미러링 솔루션요약
Kafka 잠그기보안 프로토콜인증SSLSASL재인증다운타임 없는 보안 업데이트암호화엔드투엔드 암호화권한 부여AclAuthorizer권한 사용자 지정보안 고려 사항감사ZooKeeper 보안 유지SASLSSL권한 부여플랫폼 보안비밀번호 보호요약
주제 작업새 토픽 만들기클러스터의 모든 토픽 나열하기주제 세부 정보 설명파티션 추가파티션 줄이기토픽 삭제하기소비자 그룹그룹 목록 및 설명그룹 삭제오프셋 관리동적 구성 변경토픽 구성 기본값 재정의하기클라이언트 및 사용자 구성 기본값 재정의하기브로커 구성 기본값 재정의하기구성 재정의 설명구성 재정의 제거생산 및 소비콘솔 프로듀서콘솔 소비자파티션 관리선호 복제본 선거파티션의 복제본 변경하기로그 세그먼트 덤핑복제본 확인기타 도구안전하지 않은 작업클러스터 컨트롤러 이동삭제할 토픽 제거하기수동으로 주제 삭제하기요약
메트릭 기본 사항지표는 어디에 있나요?어떤 메트릭이 필요하나요?애플리케이션 상태 확인서비스 수준 목표서비스 수준 정의어떤 지표가 좋은 SLI를 만들까요?알림에 SLO 사용Kafka 브로커 지표클러스터 문제 진단복제되지 않은 파티션의 기술브로커 지표주제 및 파티션 메트릭JVM 모니터링OS 모니터링로깅클라이언트 모니터링프로듀서 지표소비자 지표할당량지연 모니터링엔드투엔드 모니터링요약
스트림 프로세싱이란 무엇인가요?스트림 처리 개념토폴로지시간상태스트림-테이블 이중성시간 Windows처리 보증스트림 처리 디자인 패턴단일 이벤트 처리로컬 상태를 사용한 처리다단계 처리/재파티션외부 조회로 처리하기: 스트림-테이블 조인테이블-테이블 조인스트리밍 참여시퀀스 외 이벤트재처리대화형 쿼리예제별 Kafka 스트림단어 수주식 시장 통계ClickStream 강화Kafka Streams: 아키텍처 개요토폴로지 구축토폴로지 최적화토폴로지 테스트토폴로지 확장실패에서 살아남기스트림 처리 사용 사례스트림 처리 프레임워크 선택 방법요약
Windows에 설치Linux용 Windows 하위 시스템 사용네이티브 Java 사용MacOS에 설치홈브루 사용수동으로 설치
종합 플랫폼클러스터 배포 및 관리모니터링 및 데이터 탐색클라이언트 라이브러리스트림 처리

Content preview from Kafka: The Definitive Guide, 2nd Edition

제2판 서문

Kafka 초판: 최종 가이드의 초판은 5년 전에 출판되었습니다. 당시에는 Fortune 500대 기업 중 30%의 기업에서 Apache Kafka를 사용하고 있는 것으로 추정했습니다. 현재는 Fortune 500대 기업의 70% 이상이 Apache Kafka를 사용하고 있습니다. 여전히 세계에서 가장 인기 있는 오픈 소스 프로젝트 중 하나이며 거대한 에코시스템의 중심에 있습니다.

왜 이렇게 흥분할까요? 데이터 인프라에 큰 격차가 있었기 때문이라고 생각합니다. 전통적으로 데이터 관리는 데이터를 안전하게 보관하고 적시에 적절한 비트를 조회할 수 있게 해주는 파일 저장소와 데이터베이스 등 스토리지에 관한 것이 전부였습니다. 이러한 시스템에 막대한 지적 에너지와 상업적 투자가 쏟아졌습니다. 하지만 현대의 기업은 단순히 하나의 데이터베이스가 있는 하나의 소프트웨어가 아닙니다. 현대의 기업은 수백, 수천 개의 맞춤형 애플리케이션, 마이크로서비스, 데이터베이스, SaaS 계층 및 분석 플랫폼으로 구축된 엄청나게 복잡한 시스템입니다. 그리고 이 모든 것을 하나의 회사로 연결하고 실시간으로 함께 작동하도록 하는 것이 점점 더 큰 문제로 대두되고 있습니다.

이 문제는 저장된 데이터를 관리하는 것이 아니라 이동 중인 데이터를 관리하는 것입니다. 그리고 이러한 움직임의 중심에는 이동 중인 데이터를 위한 모든 플랫폼의 사실상 기반이 된 Apache Kafka가 있습니다.

이 여정에서 Kafka는 정적인 상태를 유지하지 않았습니다. 베어본 커밋 로그에서 시작하여 커넥터와 스트림 처리 기능을 추가하고, 그 과정에서 자체 아키텍처를 재창조하는 등 진화해 왔습니다. 커뮤니티는 기존 API, 구성 옵션, 메트릭, 도구를 발전시켜 Kafka의 사용성과 안정성을 개선했을 뿐만 아니라 새로운 프로그래밍 방식의 관리 API, 단일 실행 파일에서 Kafka를 실행할 수 있는 새로운 Raft 기반 합의 프로토콜인 MirrorMaker 2.0을 통한 차세대 글로벌 복제 및 DR, 계층화된 스토리지 지원을 통한 진정한 탄력성을 도입하기도 했습니다. 무엇보다도 중요한 것은 인증, 권한 부여, 암호화 등 고급 보안 옵션에 대한 지원을 추가하여 중요한 엔터프라이즈 사용 사례에서 Kafka를 손쉽게 사용할 수 있게 되었다는 점입니다.

Kafka가 발전함에 따라 사용 사례도 진화하고 있습니다. 초판이 발행되었을 때, 대부분의 Kafka 설치는 여전히 전통적인 배포 스크립트를 사용하는 전통적인 온프레미스 데이터 센터에서 이루어졌습니다. 가장 인기 있는 사용 사례는 ETL과 메시징이었으며, 스트림 처리 사용 사례는 아직 첫걸음을 내딛는 단계였습니다. 5년이 지난 지금, 대부분의 Kafka 설치는 Cloud에서 이루어지고 있으며, 대부분은 Kubernetes에서 실행되고 있습니다. ETL과 메시징은 여전히 인기가 있지만, 이벤트 기반 마이크로서비스, 실시간 스트림 처리, IoT, 머신 러닝 파이프라인, 그리고 보험사의 보험금 청구 처리부터 은행의 거래 시스템, 비디오 게임 및 스트리밍 ...