book

使用 Apache Flink 进行流处理

Name: 使用 Apache Flink 进行流处理
ISBN: 9798341657175

by Fabian Hueske, Vasiliki Kalavri

May 2025

Intermediate to advanced

310 pages

4h 4m

Chinese

O'Reilly Media, Inc.

Read now

Unlock full access

序言
你将从本书中学到什么本书使用的约定使用代码示例O'Reilly 在线学习如何联系我们致谢
1.有状态流处理简介
传统数据基础设施事务处理分析处理有状态流处理事件驱动应用程序数据管道流媒体分析开源流处理的演变一段历史快速了解 Flink运行您的第一个 Flink 应用程序摘要
2.流处理基础
数据流编程入门数据流图表数据并行和任务并行数据交换策略并行处理数据流延迟和吞吐量数据流操作时间语义学一分钟在流处理中意味着什么？处理时间活动时间水印处理时间与事件时间状态和一致性模型任务失败结果保证摘要
3.Apache Flink 的架构
系统架构Flink 设置的组成部分应用程序部署任务执行高可用性设置Flink 中的数据传输基于信用的流量控制任务链事件时间处理时间戳水印水印传播和事件时间时间戳分配和水印生成国家管理操作员状态键控状态州后端扩展有状态操作器检查点、保存点和状态恢复一致的检查点从一致检查点恢复Flink 的检查点算法检查点对性能的影响保存点摘要
4.为 Apache Flink 设置开发环境
所需软件在集成开发环境中运行和调试 Flink 应用程序在集成开发环境中导入本书示例在集成开发环境中运行 Flink 应用程序在集成开发环境中调试 Flink 应用程序Bootstrap Flink Maven 项目摘要
5.数据流应用程序接口（V1.7）
你好，弗林克设置执行环境读取输入流应用转换输出结果执行变革基本变换键控流转换多流转换配送转换设置平行度类型支持的数据类型为数据类型创建类型信息明确提供类型信息定义键值和引用字段外地职位实地表达按键选择器执行功能功能类别Lambda 函数丰富的功能包括外部和 Flink 依赖性摘要
6.基于时间的操作符和窗口操作符
配置时间特性指定时间戳和生成水印水印、延迟和完整性流程功能定时器服务和定时器向侧面输出发射协同处理函数Windows 操作员定义窗口操作符内置 Windows 分配器在 Windows 上应用函数自定义窗口操作器准时加入溪流区间连接Windows 连接处理逾期数据放弃延迟事件重定向逾期事件通过纳入后期事件更新结果摘要
7.有状态操作符和应用
实现有状态函数在运行时上下文中声明键控状态使用 ListCheckpointed 接口实现操作符列表状态使用连接广播状态使用 CheckpointedFunction 接口接收关于已完成检查点的通知为有状态应用程序启用故障恢复功能确保有状态应用程序的可维护性指定唯一的操作符标识符定义键控状态操作符的最大并行性有状态应用程序的性能和鲁棒性选择国家后台选择状态基元防止泄漏状态不断发展的有状态应用程序更新应用程序而不修改现有状态从应用程序中删除状态修改操作器状态可查询状态架构和启用可查询状态公开可查询状态从外部应用程序查询状态摘要
8.从外部系统读取数据和向外部系统写入数据
应用一致性保证惰性写作事务性写入提供的连接器Apache Kafka 源连接器Apache Kafka Sink 连接器文件系统源连接器文件系统下沉连接器Apache Cassandra Sink 连接器执行自定义源函数可重置源功能源函数、时间戳和水印执行自定义水槽功能等效水槽连接器事务性水槽连接器异步访问外部系统摘要
9.为流媒体应用设置 Flink
部署模式独立群集DockerApache Hadoop YARNKubernetes高可用性设置HA 独立设置HA YARN 设置HA Kubernetes 设置与 Hadoop 组件集成文件系统配置系统配置Java 和类加载中央处理器主存储器和网络缓冲器磁盘存储检查点和状态后端安全摘要

10.运行 Flink 和流媒体应用
运行和管理流媒体应用程序保存点使用命令行客户端管理应用程序使用 REST API 管理应用程序在容器中捆绑和部署应用程序控制任务调度控制任务链定义时隙共享组调整检查点和恢复配置检查点配置状态后端配置恢复监控 Flink 集群和应用程序Flink Web UI公制系统监测延迟配置日志记录行为摘要
11.何去何从？
Flink 生态系统的其他部分用于批处理的数据集 API用于关系分析的表格 API 和 SQL用于复杂事件处理和模式匹配的 FlinkCEP用于图形处理的 Gelly热情好客的社区
索引

Content preview from 使用 Apache Flink 进行流处理

第 2 章流处理基础流处理基础

本作品已使用人工智能进行翻译。欢迎您提供反馈和意见：translation-feedback@oreilly.com

到目前为止，您已经看到了流处理如何解决传统批处理的一些局限性，以及如何实现新的应用和架构。您还了解了开源流处理领域的一些演变，以及 Flink 流应用程序的样子。在本章中，您将正式进入流处理领域。

本章旨在介绍流处理的基本概念及其框架要求。我们希望，读完本章后，你能对现代流处理系统的功能进行评估。

数据流编程入门

在我们深入探讨流处理的基本原理之前，让我们先了解一下数据流编程的背景以及我们将在本书中使用的术语。

数据流图表

顾名思义，数据流程序描述了数据如何在操作之间流动。数据流程序通常表示为有向图，其中节点称为运算符，表示计算，边表示数据依赖关系。操作符是数据流应用程序的基本功能单元。它们从输入端消耗数据，对数据进行计算，并将数据输出到输出端，以便进一步处理。没有输入端口的操作符称为数据源，没有输出端口的操作符称为数据汇。数据流图必须至少有一个数据源和一个数据汇。图 2-1显示了一个数据流程序，该程序从输入的推文流中提取并统计标签。

图 2-1中的数据流图之所以称为逻辑图，是因为它们传达了计算逻辑的高层视图。为了执行数据流程序，需要将逻辑图转换为物理数据流图，详细说明程序的执行方式。例如，如果我们使用的是分布式处理引擎，每个操作员可能有多个并行任务，运行在不同的物理机器上。图 2-2显示了图 2-1 逻辑图的物理数据流图。在逻辑数据流图中，节点代表操作符，而在物理数据流中，节点是任务。提取标签 "和 "计数 "操作符有两个并行的操作符任务，每个任务对输入数据的一个子集进行计算。

数据并行和任务并行

可以通过不同方式利用数据流图中的并行性。首先，可以对输入数据进行分区，让相同操作的任务在数据子集上并行执行。这种并行方式称为数据并行。数据并行非常有用，因为它可以处理大量数据，并将计算负荷分散到多个计算节点上。其次，可以让不同操作员的任务并行执行相同或不同数据的计算。这种并行方式称为任务并行。利用任务并行，可以更好地利用集群的计算资源。

数据交换策略

数据交换策略定义了如何将数据项分配给物理数据流图中的任务。数据交换策略可以由执行引擎根据操作符的语义自动选择，也可以由数据流程序员明确施加。下面，我们简要回顾一些常见的数据交换策略，如图 2-3 所示。

转发策略将数据从任务发送到接收任务。如果两个任务位于同一台物理机上（任务调度程序通常会确保这一点），这种交换策略就能避免网络通信。
广播策略将每个数据项发送给操作员的所有并行任务。由于这种策略会复制数据并涉及网络通信，因此成本相当高。
基于关键字的策略通过关键字属性对数据进行分区，并保证具有相同关键字的数据项将由相同的任务处理。在图 2-2 中，"提取标签 "操作符的输出是按键（标签）划分的，这样计数操作符任务就能正确计算每个标签的出现次数。 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

DB2® SQL PL: Essential Guide for DB2® UDB on Linux™, UNIX®, Windows®, i5/OS™, and z/OS®, Second Edition

Publisher Resources

ISBN: 9798341657175

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills