book

数据管道速查手册

by James Densmore

May 2025

Intermediate to advanced

276 pages

2h 34m

Chinese

O'Reilly Media, Inc.

Book available

Read now

Unlock full access

本书适合人群本书使用的约定使用代码示例O'Reilly 在线学习如何联系我们致谢
什么是数据管道？谁在构建数据管道？SQL 和数据仓库基础知识Python 和/或 Java分布式计算基本系统管理目标导向的心态为什么要建立数据管道？管道是如何建造的？
数据来源的多样性源系统所有权输入界面和数据结构数据量数据的清洁度和有效性源系统的延迟和带宽云数据仓库和数据湖数据输入工具数据转换和建模工具工作流协调平台有向无环图定制您的数据基础设施
ETL 和 ELT相对于 ETL 而出现的 ELTEtLT 子模式用于数据分析的 ELT数据科学英语语言教学用于数据产品和机器学习的 ELT机器学习管道的步骤在管道中纳入反馈意见有关 ML 管道的更多阅读
设置 Python 环境设置云文件存储从 MySQL 数据库提取数据完整或增量式 MySQL 表提取MySQL 数据的二进制日志复制从 PostgreSQL 数据库提取数据完整或增量 Postgres 表提取使用先写日志复制数据从 MongoDB 提取数据从 REST API 提取数据使用 Kafka 和 Debezium 进行流式数据输入
将 Amazon Redshift 仓库配置为目的地将数据载入 Redshift 仓库增量与满载加载从 CDC 日志中提取的数据将 Snowflake 仓库配置为目的地将数据加载到 Snowflake 数据仓库中将文件存储作为数据湖开放源代码框架商业替代方案
非语境转换重复表中的记录解析 URL何时转化？摄入期间还是摄入之后？数据建模基础关键数据建模术语完全刷新数据建模缓慢变化尺寸，全面刷新数据增量摄入数据建模仅对附录数据建模建模变化捕捉数据
有向无环图Apache 气流设置和概述安装和配置气流数据库网络服务器和用户界面调度员执行人操作员构建气流 DAG简单的 DAGELT 管道 DAG其他管道任务警报和通知数据验证检查高级协调配置耦合与非耦合管道任务何时拆分 DAG用传感器协调多个 DAG托管气流选项其他协调框架
尽早验证，经常验证源系统数据质量数据输入风险启用数据分析师验证一个简单的验证框架验证器框架代码验证测试的结构运行验证测试气流 DAG 中的使用何时停止管道输送，何时发出警告并继续输送扩展框架验证测试示例摄入后的重复记录摄入后行计数的意外变化指标值波动商业和开源数据验证框架
处理源系统中的更改引入抽象维护数据合同读取模式的局限性扩展复杂性数据输入标准化重复使用数据模型逻辑确保依赖完整性

主要管道指标准备数据仓库数据基础设施模式记录和输入性能数据从 Airflow 获取 DAG 运行历史记录为数据验证器添加日志记录转换绩效数据DAG 成功率DAG 运行时间随时间的变化验证测试量和成功率协调性能管道性能 DAG绩效透明度

Content preview from 数据管道速查手册

第 10 章. 测量和监控管道性能

本作品已使用人工智能进行翻译。欢迎您提供反馈和意见：translation-feedback@oreilly.com

即使是最精心设计的数据管道也不是 "设置好就可以不用管 "的。测量和监控管道性能的做法至关重要。在管道可靠性方面，您有责任为团队和利益相关者设定期望值，并不辜负他们的期望。

本章概述了数据团队在收集数据和衡量工作绩效方面的一些技巧和最佳实践。

主要管道指标

在确定您需要在整个管道中捕获哪些数据之前，您必须首先确定要跟踪哪些指标。

选择衡量标准时，首先应确定什么对您和您的利益相关者至关重要。以下是一些例子：

运行了多少次验证测试（见第 8 章），通过测试的比例是多少？
特定 DAG 成功运行的频率
管道在周、月、年期间的总运行时间

好消息是，收集计算此类指标所需的数据指日可待。正如你将在接下来的章节中看到的，可以直接从本书前面构建的基础架构中获取这些数据；特别是，请参阅 Airflow（第 7 章）和数据验证框架（第 8 章）。

准备数据仓库

在监控和报告管道性能之前，您当然必须捕获测量所需的数据。值得庆幸的是，作为一名数据专家，您眼前就有这样做的工具！数据仓库是存储数据管道中每个步骤的日志数据的最佳场所。

在本节中，我将定义用于存储 Airflow 数据的表格结构以及第 8 章中定义的数据验证框架。这些数据稍后将用于制定衡量管道性能所必需的指标。

我想指出的是，您可能还想跟踪和报告许多其他数据点。我喜欢这两个示例，因为它们涵盖了基础知识，并能启发您针对数据基础设施进行其他跟踪和测量。

数据基础设施模式

首先，您需要一个表来存储来自 Airflow 的 DAG 运行历史。回顾第 7 章，Airflow 用于执行数据管道中的每个步骤。它还保存每个 DAG 运行的历史记录。在提取数据之前，需要一个表来加载这些数据。下面是一个名为dag_run_history 的表的定义。该表应在数据仓库中创建，无论在数据导入过程中将数据加载到哪个模式中：

CREATE TABLE dag_run_history (
  id int,
  dag_id varchar(250),
  execution_date timestamp with time zone,
  state varchar(250),
  run_id varchar(250),
  external_trigger boolean,
  end_date timestamp with time zone,
  start_date timestamp with time zone
);

除了报告 DAG 的性能外，深入了解数据的有效性也很重要。在第 8 章中，我定义了一个基于 Python 的简单数据验证框架。在本章中，我将对其进行扩展，以便将每次验证测试的结果记录到数据仓库中。下面这个名为validation_run_history 的表将是验证测试结果的目的地。我建议在数据仓库的同一模式中创建该表，在加载时，输入的数据也会在该模式中显示：

CREATE TABLE validation_run_history (
  script_1 varchar(255),
  script_2 varchar ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Start your free trial

What Employees Want Most in Uncertain Times

Publisher Resources

ISBN: 9798341657809

数据管道速查手册

by James Densmore

第 10 章. 测量和监控管道性能

主要管道指标

准备数据仓库

数据基础设施模式

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

You might also like

What Employees Want Most in Uncertain Times

How I Built a Personal Board of Directors With GenAI

Reinventing the Organization for GenAI and LLMs

What Successful Project Managers Do

Publisher Resources

第 10 章. 测量和监控管道性能

主要管道指标

准备数据仓库

数据基础设施模式

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,and much more.

You might also like

What Employees Want Most in Uncertain Times

How I Built a Personal Board of Directors With GenAI

Reinventing the Organization for GenAI and LLMs

What Successful Project Managers Do

Publisher Resources

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.