book

Kafka Connect

Name: Kafka Connect
ISBN: 9798341658189

by Mickael Maison, Kate Stanley

May 2025

Intermediate to advanced

402 pages

5h 9m

Chinese

O'Reilly Media, Inc.

Read now

Unlock full access

前言
序言
谁应该阅读这本书Kafka 版本本书导航本书使用的约定O'Reilly 在线学习如何联系我们致谢
I.Kafka Connect 简介
1.认识 Kafka Connect
Kafka 连接功能可插拔架构可扩展性和可靠性声明式管道定义Apache Kafka 的一部分使用案例捕捉数据库更改Kafka 集群镜像构建数据湖汇总日志传统系统现代化Kafka Connect 的替代方案摘要
2.Apache Kafka 基础知识
分布式事件流平台开放源代码已分发活动流平台Kafka 概念发布-订阅经纪人和记录主题和分区复制滞留和压实KRaft 和 ZooKeeper与 Kafka 互动生产商消费者Kafka 流Kafka 入门启动 Kafka收发记录运行 Kafka Streams 应用程序摘要
II.使用 Kafka Connect 开发数据管道
3.Kafka Connect 数据管道中的组件
Kafka 连接运行时运行 Kafka ConnectKafka Connect REST API安装插件部署模式源和汇接器连接器和任务配置连接器运行连接器转换器数据格式和模式配置转换器使用转换器转换和谓词转型用例谓词配置转换和谓词使用转换和谓词摘要
4.设计有效的数据管道
选择连接器管道方向许可和支持连接器功能定义数据模型数据转换系统间数据映射格式化数据数据格式模式探索 Kafka Connect 内部结构内部主题团体会员再平衡规程处理 Kafka Connect 中的故障工人失败连接器/任务故障Kafka/ 外部系统故障死信队列了解处理语义水槽连接器源连接器摘要
5.行动中的连接器
Confluent S3 Sink 连接器配置连接器一次完全语义学运行连接器Confluent JDBC 源连接器配置连接器运行连接器Debezium MySQL 源连接器配置连接器活动格式运行连接器摘要
6.使用 MirrorMaker 镜像集群
镜像简介探索镜像使用案例镜像实践MirrorMaker 简介共同概念部署模式MirrorMaker 连接器镜像源连接器镜像检查点连接器镜像心跳连接器运行 MirrorMaker灾难恢复示例地理复制示例摘要

III.在生产中运行 Kafka Connect
7.部署和运行 Kafka Connect 集群
准备 Kafka Connect 环境构建 Kafka Connect 环境安装插件Network+ 和权限工人插件配置提供商REST 扩展连接器客户端配置覆盖策略容量大小和规划了解 Kafka Connect 资源利用率有多少工人和任务？操作 Kafka Connect 集群增加工人撤走工人工人的升级和应用维护重启失败的任务和连接器重置连接器偏置使用 REST API 管理 Kafka Connect创建和删除连接器连接器和任务配置控制连接器的生命周期列表连接器偏移调试问题摘要
8.配置 Kafka Connect
配置运行时生产配置微调配置配置连接器主题配置客户端重载精确一次的配置错误处理配置为安全配置 Kafka 连接集群确保与 Kafka 的连接安全配置权限确保 REST API 的安全摘要
9.监控 Kafka Connect
监控日志日志配置了解启动日志分析日志监测指标指标报告员分析指标探索衡量标准关键指标Kafka Connect 运行时指标其他系统指标摘要
10.在 Kubernetes 上管理 Kafka Connect
Kubernetes 简介虚拟化技术Kubernetes 基础知识在 Kubernetes 上运行 Kafka Connect集装箱图像部署工人联网和监控配置使用 Kubernetes 操作员部署 Kafka ConnectKubernetes 操作员介绍Kafka Connect 的 Kubernetes 操作员Strimzi获取 Kubernetes 环境启动操作员Kafka 连接 CRD部署 Kafka Connect 集群和连接器镜像制造 CRD摘要
IV.构建自定义连接器和插件
11.构建源和汇连接器
通用概念和应用程序接口创建自定义连接器连接器应用程序接口配置任务 APIKafka 连接记录ConnectorContext API实施源连接器源任务 API来源记录SourceConnectorContext 和 SourceTaskContext API一次支持实施水槽连接器SinkTask API水槽记录SinkConnectorContext 和 SinkTaskContext API摘要
12.使用连接器和 Worker 插件扩展 Kafka Connect
实施连接器插件转型应用程序接口谓词应用程序接口转换器和页眉转换器应用程序接口实施工人插件配置提供程序接口ConnectorClientConfigOverridePolicy APIConnectRestExtension API摘要
索引
关于作者

Content preview from Kafka Connect

第 5 章行动中的连接器

本作品已使用人工智能进行翻译。欢迎您提供反馈和意见：translation-feedback@oreilly.com

在介绍了 Kafka Connect 的工作原理和使用方法后，是时候将所学知识付诸实践了！在本章中，我们将了解并运行一些最常用的连接器：亚马逊简单存储服务（S3）的汇连接器、JDBC 源连接器和 MySQL 源连接器。我们将解释它们的目标用例和最重要的配置，并演示如何在各种场景中使用它们。

这三个连接器涉及常见用例，出现在各行各业的许多管道中，因此充分了解它们很有价值。即使您不使用这些特定的连接器，我们也希望所涉及的许多主题适用于其他连接器。

所有示例都假定你有一个 Kafka 集群正在运行，其 Bootstrap 服务器的访问地址为localhost:9092 。

Confluent S3 Sink 连接器

Kafka Connect 最常见的用例之一是从 Kafka 导出数据到存储系统。通常，您需要在数据处理后长期保存数据；这可能是出于法律原因，也可能是为了保存历史数据，或者仅仅是为了定期运行的面向批处理的系统。虽然 Kafka 可以无限期地存储数据，但如果您处理的数据量非常大，那么将数据永远存储在 Kafka 中的成本会变得很高。

Amazon S3 等云存储系统专为长时间存储大量数据而设计，每千兆字节成本低廉。此外，由于存储服务与数据处理工具集成，因此可用作数据湖。建立一个将数据从 Kafka 复制到存储服务的管道很常见。如果想把数据放回 Kafka，可以用源连接器导入。

在本节中，我们将研究 Confluent S3 汇连接器，该连接器可从Confluent Hub 网站获取。示例和配置说明使用的是该连接器的 10.5.1 版本。社区构建了多种 S3 汇连接器供你选择；每种连接器都有自己的特性和配置设置，但总体上功能相似。您可以从 Confluent Hub 下载包含 Confluent 连接器所有库的 ZIP 文件。下载完成后，解压缩其中的内容，然后将文件夹添加到 Kafka Connect 运行时的plugin.path 。

让我们先来看看这个连接器的配置和各种运行方式。

配置连接器

Confluent S3 sink 连接器可通过进行配置，并提供 50 多种设置来微调其行为。其中大多数设置都有合理的默认值，而且大多数高级设置都是可选的，因此您通常只需设置少量配置。在本节中，我们将介绍最重要的设置，并解释它们是如何实现常见用例的。在了解基础知识后，我们建议您查看完整的设置列表，看看您的用例是否能从高级调整中受益。请注意，您可以为一些设置提供自定义实现，这些设置会显著改变连接器的工作方式。

作为汇接口，可处理数据的最大任务数等于topics 或topics.regex 中所列主题的分区数。如果将tasks.max 设为更大的值，接口仍会启动该数量的任务，但额外的任务不会处理记录，而且会不必要地占用资源。

这些配置可分为五类：

连接和 S3 详情
对象分区
对象命名
对象格式
对象上传

连接和 S3 详情

要将连接器连接到您的 S3 实例，首先需要您的亚马逊网络服务（AWS）凭据：访问密钥和秘钥。向连接器提供凭据有多种方法。第一种方法是同时设置aws.access.key.id 和aws.secret.access.key 。这样就可以为运行的每个 S3 连接器使用不同的凭据。另一种方法是使用凭据提供者在 Kafka Connect Worker 中设置凭据，供所有 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9798341658189

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

Kafka Connect

by Mickael Maison, Kate Stanley

第 5 章行动中的连接器

Confluent S3 Sink 连接器