Skip to Content
Kafka Connect
book

Kafka Connect

by Mickael Maison, Kate Stanley
May 2025
Intermediate to advanced
402 pages
5h 9m
Chinese
O'Reilly Media, Inc.
Content preview from Kafka Connect

第 1 章. 认识 Kafka Connect

本作品已使用人工智能进行翻译。欢迎您提供反馈和意见:translation-feedback@oreilly.com

处理数据的系统早在计算机诞生之初就已存在。然而,正在生成和收集的数据量正以指数级速度增长。据估计,2018 年每天产生的数据量达 2.5 万亿字节国际数据公司(IDC)预计,2022 年至 2025 年间,所有现有数据的总规模将翻一番。

为了让企业能够处理这些现在被称为 "大数据 "的海量数据,我们设计了新的系统类别。现在有数百种不同的数据库、数据存储和处理工具,以满足各种可以想象到的大数据用例。如今,一个典型的组织会运行多个这样的系统。这可能是因为通过收购继承了不同的系统、针对特定用例进行了优化或由不同的团队进行管理。也可能是首选工具随着时间的推移发生了变化,而旧的应用程序没有更新。

对于大多数组织而言,仅仅收集和存储原始数据还不足以获得竞争优势或提供新颖的服务。为了获得洞察力,必须通过分析和组合多个来源的数据来完善数据。例如,营销团队的数据可以与销售数据一起使用,以确定哪些营销活动效果最好。销售和客户档案数据可以结合起来,建立个性化的奖励计划。用于数据收集和汇总的工具组合称为数据管道

在过去十年中,Apache Kafka已成为实时摄取和处理大量数据的事实标准。Kafka 是一个开源数据流平台,旨在作为企业的数据骨干。现在,它已成为许多数据部署的关键组件,《财富》百强企业中有 80% 以上都在使用它。许多新应用的开发都是为了与 Kafka 协同工作,这样它们的数据就能立即高度可用,并能轻松重用和高效处理,从而推动实时知识的发展。

大多数组织的现有系统中已经存在大量数据。乍一看,编写一个应用程序来汇总这些系统中的数据似乎比较容易,因为大多数系统都有应用程序接口(API)。但是,随着所使用的外部系统数量的增加,这样做很快就会在维护和开发人员的时间方面成为一个巨大而昂贵的负担。各系统都有自己独特的格式和 API,而且通常由不同的团队或部门管理。如果再加上安全和数据隐私方面的考虑,如欧盟的《通用数据保护条例》(GDPR),编写应用程序很快就会变成一项具有挑战性的任务。

为了解决这些问题,人们开发了许多集成系统。集成系统旨在连接各种系统并访问数据。

Kafka Connect 就是这些集成系统之一。它是 Apache Kafka 的一部分,专门用于将其他系统与 Kafka 集成,以便轻松移动、重用、组合或处理数据。例如,Kafka Connect 可用于将变化从数据库中流出,并输入 Kafka,从而使其他服务能够轻松地做出实时反应。同样,一旦数据在 Kafka 中得到充分处理,Kafka Connect 就可以将其移动到数据存储区,并在那里长期保存。

Kafka 连接功能

Kafka Connect 提供了一个运行时和框架,用于构建和运行包含 Kafka 的健壮数据管道。它于 2016 年通过KIP-26 在 Kafka 0.10.0.0 中首次引入。Kafka Connect 经过实战检验,已知在负载和巨大规模下具有弹性。Kafka Connect 运行时还提供了一个单一的控制平面来管理你的所有管道,它通常允许在不编写任何代码的情况下构建管道,这样工程师就可以专注于他们的用例,而不是移动数据。

Kafka Connect 区分源管道汇管道,前者是数据从外部系统流向 Kafka,后者是数据从 Kafka 流向外部系统。使用 Kafka Connect,管道的一端必须是 Kafka,因此不能直接将两个外部系统连接在一起。也就是说,通过源管道导入 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

AirBnbBlueOriginElectronic ArtsHomeDepotNasdaqRakutenTata Consultancy Services

QuotationMarkO’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.
Julian F.
Head of Cybersecurity
QuotationMarkI wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.
Addison B.
Field Engineer
QuotationMarkI’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.
Amir M.
Data Platform Tech Lead
QuotationMarkI'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.
Mark W.
Embedded Software Engineer

You might also like

Kafka Connect

Kafka Connect

Mickael Maison, Kate Stanley

Publisher Resources

ISBN: 9798341658189