book

Kafka Connect

Name: Kafka Connect
ISBN: 9798341658189

by Mickael Maison, Kate Stanley

May 2025

Intermediate to advanced

402 pages

5h 9m

Chinese

O'Reilly Media, Inc.

Read now

Unlock full access

前言
序言
谁应该阅读这本书Kafka 版本本书导航本书使用的约定O'Reilly 在线学习如何联系我们致谢
I.Kafka Connect 简介
1.认识 Kafka Connect
Kafka 连接功能可插拔架构可扩展性和可靠性声明式管道定义Apache Kafka 的一部分使用案例捕捉数据库更改Kafka 集群镜像构建数据湖汇总日志传统系统现代化Kafka Connect 的替代方案摘要
2.Apache Kafka 基础知识
分布式事件流平台开放源代码已分发活动流平台Kafka 概念发布-订阅经纪人和记录主题和分区复制滞留和压实KRaft 和 ZooKeeper与 Kafka 互动生产商消费者Kafka 流Kafka 入门启动 Kafka收发记录运行 Kafka Streams 应用程序摘要
II.使用 Kafka Connect 开发数据管道
3.Kafka Connect 数据管道中的组件
Kafka 连接运行时运行 Kafka ConnectKafka Connect REST API安装插件部署模式源和汇接器连接器和任务配置连接器运行连接器转换器数据格式和模式配置转换器使用转换器转换和谓词转型用例谓词配置转换和谓词使用转换和谓词摘要
4.设计有效的数据管道
选择连接器管道方向许可和支持连接器功能定义数据模型数据转换系统间数据映射格式化数据数据格式模式探索 Kafka Connect 内部结构内部主题团体会员再平衡规程处理 Kafka Connect 中的故障工人失败连接器/任务故障Kafka/ 外部系统故障死信队列了解处理语义水槽连接器源连接器摘要
5.行动中的连接器
Confluent S3 Sink 连接器配置连接器一次完全语义学运行连接器Confluent JDBC 源连接器配置连接器运行连接器Debezium MySQL 源连接器配置连接器活动格式运行连接器摘要
6.使用 MirrorMaker 镜像集群
镜像简介探索镜像使用案例镜像实践MirrorMaker 简介共同概念部署模式MirrorMaker 连接器镜像源连接器镜像检查点连接器镜像心跳连接器运行 MirrorMaker灾难恢复示例地理复制示例摘要

III.在生产中运行 Kafka Connect
7.部署和运行 Kafka Connect 集群
准备 Kafka Connect 环境构建 Kafka Connect 环境安装插件Network+ 和权限工人插件配置提供商REST 扩展连接器客户端配置覆盖策略容量大小和规划了解 Kafka Connect 资源利用率有多少工人和任务？操作 Kafka Connect 集群增加工人撤走工人工人的升级和应用维护重启失败的任务和连接器重置连接器偏置使用 REST API 管理 Kafka Connect创建和删除连接器连接器和任务配置控制连接器的生命周期列表连接器偏移调试问题摘要
8.配置 Kafka Connect
配置运行时生产配置微调配置配置连接器主题配置客户端重载精确一次的配置错误处理配置为安全配置 Kafka 连接集群确保与 Kafka 的连接安全配置权限确保 REST API 的安全摘要
9.监控 Kafka Connect
监控日志日志配置了解启动日志分析日志监测指标指标报告员分析指标探索衡量标准关键指标Kafka Connect 运行时指标其他系统指标摘要
10.在 Kubernetes 上管理 Kafka Connect
Kubernetes 简介虚拟化技术Kubernetes 基础知识在 Kubernetes 上运行 Kafka Connect集装箱图像部署工人联网和监控配置使用 Kubernetes 操作员部署 Kafka ConnectKubernetes 操作员介绍Kafka Connect 的 Kubernetes 操作员Strimzi获取 Kubernetes 环境启动操作员Kafka 连接 CRD部署 Kafka Connect 集群和连接器镜像制造 CRD摘要
IV.构建自定义连接器和插件
11.构建源和汇连接器
通用概念和应用程序接口创建自定义连接器连接器应用程序接口配置任务 APIKafka 连接记录ConnectorContext API实施源连接器源任务 API来源记录SourceConnectorContext 和 SourceTaskContext API一次支持实施水槽连接器SinkTask API水槽记录SinkConnectorContext 和 SinkTaskContext API摘要
12.使用连接器和 Worker 插件扩展 Kafka Connect
实施连接器插件转型应用程序接口谓词应用程序接口转换器和页眉转换器应用程序接口实施工人插件配置提供程序接口ConnectorClientConfigOverridePolicy APIConnectRestExtension API摘要
索引
关于作者

Content preview from Kafka Connect

第 4 章设计有效的数据管道设计有效的数据管道

本作品已使用人工智能进行翻译。欢迎您提供反馈和意见：translation-feedback@oreilly.com

在本章中，您将学习如何使用 Kafka Connect 构建弹性和有效的数据管道。我们将解释数据工程师和架构师在组装第 3 章中介绍的组件时必须了解的关键概念和决策点。

在本章的前半部分，我们将探讨如何为管道选择连接器插件。您需要一个连接器、一个转换器以及一些转换和谓词。我们将讨论如何评估连接器，并从社区中数以百计的连接器中找出满足生产要求的连接器。然后，我们将讨论如何在数据流过管道时对其进行建模，以及可用的格式化选项。

本章后半部分主要介绍 Kafka Connect 的弹性特性。在构建管道之前，您需要根据用例确定所需的语义。例如，您是否需要保证每条数据都能交付，还是为了提高吞吐量而丢失一些数据是可以接受的？我们首先深入了解 Kafka Connect 的内部工作原理，解释为什么它是一个能够处理故障的强大环境。然后，我们了解汇和源管道可以实现的语义，以及针对特定用例的不同配置选项和权衡。

选择连接器

在构建使用 Kafka Connect 的数据管道时，您首先需要决定安装哪个连接器。由于 Kafka 是一种非常流行的技术，因此有许多现有的连接器供你选择。与其重新发明轮子，不如使用现有的连接器，但前提是它必须满足你的要求。以下是在选择是否使用特定连接器作为管道的一部分时需要考虑的一些事项：

管道方向（源或汇）
许可和支持
连接器功能

管道方向

首先，验证连接器的数据流方向是否正确。它是向 Kafka 生成数据的源连接器，还是从 Kafka 消费数据的汇连接器？大多数连接器都将这一细节作为名称的一部分，文档中通常也会清楚说明。如果不是，你可以在 Kafka Connect 环境中安装连接器，并使用 REST API 来检索其类型。

$ curl localhost:8083/connector-plugins
[
  {
    "class": "org.apache.kafka.connect.mirror.MirrorCheckpointConnector",
    "type": "source",
    "version": "3.5.0"
  },
  {
    "class": "org.apache.kafka.connect.mirror.MirrorHeartbeatConnector",
    "type": "source",
    "version": "3.5.0"
  },
  {
    "class": "org.apache.kafka.connect.mirror.MirrorSourceConnector",
    "type": "source",
    "version": "3.5.0"
  }
]

type 字段表示连接器的类型。

有些项目提供包含源连接器和汇连接器的单一下载，但其他项目可能只提供其中一种。

许可和支持

在使用连接器之前，请务必检查其许可证是否允许。连接器的源代码是公开的或可以免费下载的，但这并不意味着许可证是许可的。您还应该考虑您所期望的维护和支持水平。Kafka 社区努力确保旧版本的连接器与新版本的运行时兼容；但是，连接器的维护和更新并不都是一样的。无论你选择什么样的连接器，无论是开源的还是专有的，都要确保你知道连接器多久会更新一次最新的 Kafka API，以及开发者是如何解决安全漏洞的。

特定连接器获得支持的程度差别很大。许多公司为连接器（无论是专有还是开源）提供付费支持。这通常包括一个专门的沟通渠道（如果遇到问题），以及行业专家提供的配置建议。尽管如此，许多开源社区也会快速响应错误报告，并提供自己的专用交流渠道。 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9798341658189

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business