book

数据管道速查手册

Name: 数据管道速查手册
Author: James Densmore
ISBN: 9798341657809

by James Densmore

May 2025

Intermediate to advanced

276 pages

2h 34m

Chinese

O'Reilly Media, Inc.

Read now

Unlock full access

序言
本书适合人群本书使用的约定使用代码示例O'Reilly 在线学习如何联系我们致谢
1.数据管道简介
什么是数据管道？谁在构建数据管道？SQL 和数据仓库基础知识Python 和/或 Java分布式计算基本系统管理目标导向的心态为什么要建立数据管道？管道是如何建造的？
2.现代数据基础设施
数据来源的多样性源系统所有权输入界面和数据结构数据量数据的清洁度和有效性源系统的延迟和带宽云数据仓库和数据湖数据输入工具数据转换和建模工具工作流协调平台有向无环图定制您的数据基础设施
3.常见的数据管道模式
ETL 和 ELT相对于 ETL 而出现的 ELTEtLT 子模式用于数据分析的 ELT数据科学英语语言教学用于数据产品和机器学习的 ELT机器学习管道的步骤在管道中纳入反馈意见有关 ML 管道的更多阅读
4.数据输入：提取数据
设置 Python 环境设置云文件存储从 MySQL 数据库提取数据完整或增量式 MySQL 表提取MySQL 数据的二进制日志复制从 PostgreSQL 数据库提取数据完整或增量 Postgres 表提取使用先写日志复制数据从 MongoDB 提取数据从 REST API 提取数据使用 Kafka 和 Debezium 进行流式数据输入
5.数据导入：加载数据
将 Amazon Redshift 仓库配置为目的地将数据载入 Redshift 仓库增量与满载加载从 CDC 日志中提取的数据将 Snowflake 仓库配置为目的地将数据加载到 Snowflake 数据仓库中将文件存储作为数据湖开放源代码框架商业替代方案
6.数据转换
非语境转换重复表中的记录解析 URL何时转化？摄入期间还是摄入之后？数据建模基础关键数据建模术语完全刷新数据建模缓慢变化尺寸，全面刷新数据增量摄入数据建模仅对附录数据建模建模变化捕捉数据
7.协调管道
有向无环图Apache 气流设置和概述安装和配置气流数据库网络服务器和用户界面调度员执行人操作员构建气流 DAG简单的 DAGELT 管道 DAG其他管道任务警报和通知数据验证检查高级协调配置耦合与非耦合管道任务何时拆分 DAG用传感器协调多个 DAG托管气流选项其他协调框架
8.管道中的数据验证
尽早验证，经常验证源系统数据质量数据输入风险启用数据分析师验证一个简单的验证框架验证器框架代码验证测试的结构运行验证测试气流 DAG 中的使用何时停止管道输送，何时发出警告并继续输送扩展框架验证测试示例摄入后的重复记录摄入后行计数的意外变化指标值波动商业和开源数据验证框架
9.维护管道的最佳做法
处理源系统中的更改引入抽象维护数据合同读取模式的局限性扩展复杂性数据输入标准化重复使用数据模型逻辑确保依赖完整性

10.测量和监测管道性能
主要管道指标准备数据仓库数据基础设施模式记录和输入性能数据从 Airflow 获取 DAG 运行历史记录为数据验证器添加日志记录转换绩效数据DAG 成功率DAG 运行时间随时间的变化验证测试量和成功率协调性能管道性能 DAG绩效透明度
索引

Content preview from 数据管道速查手册

第 8 章管道中的数据验证管道中的数据验证

本作品已使用人工智能进行翻译。欢迎您提供反馈和意见：translation-feedback@oreilly.com

即使是设计最完善的数据管道，也难免会出错。如果流程、协调和基础架构设计得当，很多问题都可以避免，或至少可以减轻。但是，为了确保数据本身的质量和有效性，您需要对数据验证进行投资。最好假设未经测试的数据不能安全地用于分析。本章将讨论 ELT 管道各步骤中的数据验证原则。

尽早验证，经常验证

尽管初衷是好的，但一些数据团队还是将数据验证留到了管道的末端，并在转换过程中或甚至在所有转换完成后实施某种类型的验证。在这种设计中，他们认为数据分析师（通常拥有转换逻辑）最适合理解数据并确定是否存在任何质量问题。

在这种设计中，数据工程师专注于将数据从一个系统转移到另一个系统、协调管道和维护数据基础架构。虽然这是数据工程师的职责所在，但有一点是缺失的：由于忽略了流经管道中每一步的数据内容，他们将信任寄托在了源系统的所有者、自己的摄取流程以及转换数据的分析师身上。虽然这种责任分离听起来很高效，但很可能会导致数据质量低下，以及在发现质量问题时调试过程效率低下。

在流水线的末端发现数据质量问题，不得不追溯到起点是最糟糕的情况。通过在流水线的每个步骤进行验证，您更有可能在当前步骤而不是之前的步骤中找到根本原因。

虽然不能指望数据工程师掌握足够的上下文来对每个数据集进行验证，但他们可以通过编写非上下文验证检查以及提供基础架构和模板来发挥带头作用，使那些更接近管道中每个步骤的团队成员和利益相关者能够执行更具体的验证。

源系统数据质量

鉴于有大量源系统被导入到典型的数据仓库中，在数据导入过程中，无效数据很可能会在某些时候进入仓库。虽然源系统所有者似乎会在录入之前发现某种无效数据，但通常情况并非如此，原因有以下几点：

无效数据可能不会影响源系统本身的运行: 源系统应用程序的逻辑可能会通过在应用程序层进行重复数据复制来解决表中重复/模糊记录等问题，或者在应用程序本身中使用默认值来填充 NULL 日期值。
当记录成为孤儿时，源系统可能运行正常: 例如，一条Customer 记录可能会被删除，但与该客户相关的Order 记录可能会保留下来。虽然应用程序可能会忽略这些Order 记录，但这种情况肯定会对数据分析产生影响。
尚未发现或修复的错误可能实际上存在于源代码系统中: 在我的职业生涯中，遇到过多次数据团队发现源系统中存在关键问题的情况！

备注

无论原因如何，底线是数据工程师绝不能假定他们正在获取的数据不存在质量问题，即使最终加载到仓库中的数据完全符合其来源。

数据输入风险

除了源系统的质量问题外，数据摄取过程本身也可能导致数据质量问题。下面是一些常见的例子：

摄取的提取或加载步骤中出现系统中断或超时: 虽然有时这种情况会导致严重错误并停止管道，但在其他情况下，"无声 "故障会导致部分提取或加载数据集。
增量摄取中的逻辑错误: 回顾第 4章和第 5章中的增量提取模式。从数据仓库中的表中读取最新记录的时间戳，然后提取源系统中时间戳更近的记录，以便将它们加载到仓库中。一个简单的逻辑错误，如在 SQL 语句中使用了 "大于或等于 "运算符而不是 "大于"，都可能导致重复记录被录入。还有许多其他可能性，例如各系统的时区不一致。
提取文件中的解析问题: 正如第 4章和第 5 章所述，典型的做法是从源系统中提取数据，存储在 CSV 等平面文件中，然后从该文件加载到数据仓库中。当数据从源系统翻译成平面文件时，有时会包含特殊字符或其他意外的字符编码。根据数据工程师和数据仓库加载机制处理此类情况的方式，记录有可能被丢弃，或者新加载的记录中包含的数据可能是畸形的。 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9798341657809

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills