book

Kafka Connect

Name: Kafka Connect
ISBN: 9798341658189

by Mickael Maison, Kate Stanley

May 2025

Intermediate to advanced

402 pages

5h 9m

Chinese

O'Reilly Media, Inc.

Read now

Unlock full access

前言
序言
谁应该阅读这本书Kafka 版本本书导航本书使用的约定O'Reilly 在线学习如何联系我们致谢
I.Kafka Connect 简介
1.认识 Kafka Connect
Kafka 连接功能可插拔架构可扩展性和可靠性声明式管道定义Apache Kafka 的一部分使用案例捕捉数据库更改Kafka 集群镜像构建数据湖汇总日志传统系统现代化Kafka Connect 的替代方案摘要
2.Apache Kafka 基础知识
分布式事件流平台开放源代码已分发活动流平台Kafka 概念发布-订阅经纪人和记录主题和分区复制滞留和压实KRaft 和 ZooKeeper与 Kafka 互动生产商消费者Kafka 流Kafka 入门启动 Kafka收发记录运行 Kafka Streams 应用程序摘要
II.使用 Kafka Connect 开发数据管道
3.Kafka Connect 数据管道中的组件
Kafka 连接运行时运行 Kafka ConnectKafka Connect REST API安装插件部署模式源和汇接器连接器和任务配置连接器运行连接器转换器数据格式和模式配置转换器使用转换器转换和谓词转型用例谓词配置转换和谓词使用转换和谓词摘要
4.设计有效的数据管道
选择连接器管道方向许可和支持连接器功能定义数据模型数据转换系统间数据映射格式化数据数据格式模式探索 Kafka Connect 内部结构内部主题团体会员再平衡规程处理 Kafka Connect 中的故障工人失败连接器/任务故障Kafka/ 外部系统故障死信队列了解处理语义水槽连接器源连接器摘要
5.行动中的连接器
Confluent S3 Sink 连接器配置连接器一次完全语义学运行连接器Confluent JDBC 源连接器配置连接器运行连接器Debezium MySQL 源连接器配置连接器活动格式运行连接器摘要
6.使用 MirrorMaker 镜像集群
镜像简介探索镜像使用案例镜像实践MirrorMaker 简介共同概念部署模式MirrorMaker 连接器镜像源连接器镜像检查点连接器镜像心跳连接器运行 MirrorMaker灾难恢复示例地理复制示例摘要

III.在生产中运行 Kafka Connect
7.部署和运行 Kafka Connect 集群
准备 Kafka Connect 环境构建 Kafka Connect 环境安装插件Network+ 和权限工人插件配置提供商REST 扩展连接器客户端配置覆盖策略容量大小和规划了解 Kafka Connect 资源利用率有多少工人和任务？操作 Kafka Connect 集群增加工人撤走工人工人的升级和应用维护重启失败的任务和连接器重置连接器偏置使用 REST API 管理 Kafka Connect创建和删除连接器连接器和任务配置控制连接器的生命周期列表连接器偏移调试问题摘要
8.配置 Kafka Connect
配置运行时生产配置微调配置配置连接器主题配置客户端重载精确一次的配置错误处理配置为安全配置 Kafka 连接集群确保与 Kafka 的连接安全配置权限确保 REST API 的安全摘要
9.监控 Kafka Connect
监控日志日志配置了解启动日志分析日志监测指标指标报告员分析指标探索衡量标准关键指标Kafka Connect 运行时指标其他系统指标摘要
10.在 Kubernetes 上管理 Kafka Connect
Kubernetes 简介虚拟化技术Kubernetes 基础知识在 Kubernetes 上运行 Kafka Connect集装箱图像部署工人联网和监控配置使用 Kubernetes 操作员部署 Kafka ConnectKubernetes 操作员介绍Kafka Connect 的 Kubernetes 操作员Strimzi获取 Kubernetes 环境启动操作员Kafka 连接 CRD部署 Kafka Connect 集群和连接器镜像制造 CRD摘要
IV.构建自定义连接器和插件
11.构建源和汇连接器
通用概念和应用程序接口创建自定义连接器连接器应用程序接口配置任务 APIKafka 连接记录ConnectorContext API实施源连接器源任务 API来源记录SourceConnectorContext 和 SourceTaskContext API一次支持实施水槽连接器SinkTask API水槽记录SinkConnectorContext 和 SinkTaskContext API摘要
12.使用连接器和 Worker 插件扩展 Kafka Connect
实施连接器插件转型应用程序接口谓词应用程序接口转换器和页眉转换器应用程序接口实施工人插件配置提供程序接口ConnectorClientConfigOverridePolicy APIConnectRestExtension API摘要
索引
关于作者

Content preview from Kafka Connect

第 6 章使用 MirrorMaker 镜像集群使用 MirrorMaker 镜像集群

本作品已使用人工智能进行翻译。欢迎您提供反馈和意见：translation-feedback@oreilly.com

在两个 Kafka 集群之间复制数据的操作称为镜像。使用这个术语是为了将这一过程与 "复制 "一词区分开来，后者通常指的是集群内不同代理之间共享 Kafka 中数据的方式。不过，社区在讨论集群之间的数据复制时，经常使用这两个术语。

集群间镜像数据的想法几乎和 Kafka 本身一样古老。在Kafka诞生之初，镜像是代理的一项功能，后来在2012年初被分离成自己的工具。该工具是一个名为 MirrorMaker 的独立应用程序，但由于其最初的设计，它有很多局限性，很难操作。于是在 2019 年，通过KIP-382推出了一款基于 Kafka Connect 的新镜像工具，名为 MirrorMaker2。最初的 MirrorMaker 工具自 Kafka 3.0 起已被弃用，并将在 Kafka 4.0 中移除（通过KIP-720）；新工具现在通常被简单地称为 MirrorMaker 或 MM2。

在本章中，我们只介绍新工具，并将其称为 MirrorMaker。我们将介绍依赖镜像的用例，解释 MirrorMaker 连接器的工作原理，最后通过一些示例演示如何使用它们。

镜像简介

Kafka 的扩展性非常好，可以运行一个容量极大的集群。不过，在许多情况下，最好还是有多个较小的集群。这可能是为了更好地服务于不同地域，也可能是出于其他原因，例如隔离或工作负载优化。当你拥有多个 Kafka 集群时，通常会希望在它们之间镜像数据。

探索镜像使用案例

在集群间镜像数据对各种使用情况都很有意义。在本节中，我们将探讨四种最常见的情况：

地理复制
灾后恢复
迁移
复杂拓扑结构

地理复制

虽然不同地域之间的网络吞吐量和延迟在过去十年中得到了显著改善，但机器之间的距离仍然会对性能产生影响。出于这个原因，在很多情况下，Kafka 集群位于 Kafka 客户端附近是有好处的，因此大型企业通常会在其服务的每个地区或市场中部署一个或多个集群。在部署于不同地理位置的 Kafka 集群之间镜像数据的过程称为地理复制。

地理复制的一个关键方面是，每个应用程序在自己的区域内使用一个 Kafka 集群，而镜像则用于在区域间流动数据。这可以是在所有区域共享数据，也可以是在特定区域聚合所有数据。例如，在集线器和辐条拓扑中，来自所有区域的数据都汇总到一个区域（例如，最大的区域或公司总部所在区域）进行处理。图 6-1显示了一种集线器和辐条拓扑结构，其中eu 区域接收来自所有其他区域的数据。

Example of a hub and spoke topology where applications only use their local Kafka cluster and data is aggregated to a single region, in this case eu

在地理复制使用案例中，数据也可以在群集之间双向流动。当所有集群都向其他集群广播自己的部分数据时，就会出现这种情况。如果将处理汇总数据的结果反馈给单个集群，这种情况也适用于集线器环境。具有双向数据流的设置通常被称为主动-主动。

灾后恢复

随着 Kafka 被许多行业采用来运行关键工作负载，集群的可用性和弹性至关重要。通过正确的配置和部署，Kafka 集群能够承受多种类型的故障，例如单个代理的故障，甚至是底层数据中心的故障。但是，对于高度敏感的工作负载，有必要能够处理更大类型的故障，如整个地理区域的故障或多个组件同时发生故障。 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9798341658189

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills