book

数据管道速查手册

Name: 数据管道速查手册
Author: James Densmore
ISBN: 9798341657809

by James Densmore

May 2025

Intermediate to advanced

276 pages

2h 34m

Chinese

O'Reilly Media, Inc.

Read now

Unlock full access

序言
本书适合人群本书使用的约定使用代码示例O'Reilly 在线学习如何联系我们致谢
1.数据管道简介
什么是数据管道？谁在构建数据管道？SQL 和数据仓库基础知识Python 和/或 Java分布式计算基本系统管理目标导向的心态为什么要建立数据管道？管道是如何建造的？
2.现代数据基础设施
数据来源的多样性源系统所有权输入界面和数据结构数据量数据的清洁度和有效性源系统的延迟和带宽云数据仓库和数据湖数据输入工具数据转换和建模工具工作流协调平台有向无环图定制您的数据基础设施
3.常见的数据管道模式
ETL 和 ELT相对于 ETL 而出现的 ELTEtLT 子模式用于数据分析的 ELT数据科学英语语言教学用于数据产品和机器学习的 ELT机器学习管道的步骤在管道中纳入反馈意见有关 ML 管道的更多阅读
4.数据输入：提取数据
设置 Python 环境设置云文件存储从 MySQL 数据库提取数据完整或增量式 MySQL 表提取MySQL 数据的二进制日志复制从 PostgreSQL 数据库提取数据完整或增量 Postgres 表提取使用先写日志复制数据从 MongoDB 提取数据从 REST API 提取数据使用 Kafka 和 Debezium 进行流式数据输入
5.数据导入：加载数据
将 Amazon Redshift 仓库配置为目的地将数据载入 Redshift 仓库增量与满载加载从 CDC 日志中提取的数据将 Snowflake 仓库配置为目的地将数据加载到 Snowflake 数据仓库中将文件存储作为数据湖开放源代码框架商业替代方案
6.数据转换
非语境转换重复表中的记录解析 URL何时转化？摄入期间还是摄入之后？数据建模基础关键数据建模术语完全刷新数据建模缓慢变化尺寸，全面刷新数据增量摄入数据建模仅对附录数据建模建模变化捕捉数据
7.协调管道
有向无环图Apache 气流设置和概述安装和配置气流数据库网络服务器和用户界面调度员执行人操作员构建气流 DAG简单的 DAGELT 管道 DAG其他管道任务警报和通知数据验证检查高级协调配置耦合与非耦合管道任务何时拆分 DAG用传感器协调多个 DAG托管气流选项其他协调框架
8.管道中的数据验证
尽早验证，经常验证源系统数据质量数据输入风险启用数据分析师验证一个简单的验证框架验证器框架代码验证测试的结构运行验证测试气流 DAG 中的使用何时停止管道输送，何时发出警告并继续输送扩展框架验证测试示例摄入后的重复记录摄入后行计数的意外变化指标值波动商业和开源数据验证框架
9.维护管道的最佳做法
处理源系统中的更改引入抽象维护数据合同读取模式的局限性扩展复杂性数据输入标准化重复使用数据模型逻辑确保依赖完整性

10.测量和监测管道性能
主要管道指标准备数据仓库数据基础设施模式记录和输入性能数据从 Airflow 获取 DAG 运行历史记录为数据验证器添加日志记录转换绩效数据DAG 成功率DAG 运行时间随时间的变化验证测试量和成功率协调性能管道性能 DAG绩效透明度
索引

Content preview from 数据管道速查手册

第 6 章数据转换数据转换

本作品已使用人工智能进行翻译。欢迎您提供反馈和意见：translation-feedback@oreilly.com

在第 3 章定义的 ELT 模式中，一旦数据被输入数据湖或数据仓库（第 4 章），管道的下一步就是数据转换。数据转换既包括对数据进行非上下文操作，也包括根据业务上下文和逻辑对数据进行建模。

如果管道的目的是产生业务洞察或分析，那么除了任何非上下文转换外，数据还要进一步转换为数据模型。回顾第 2 章，数据模型以可理解和优化的数据分析格式构建和定义数据。数据模型在数据仓库中表示为一个或多个表。

尽管数据工程师有时会在管道中构建非上下文转换，但数据分析师和分析工程师处理绝大多数数据转换已成为一种典型的做法。由于 ELT 模式的出现（他们所需的数据就在仓库中！）以及以 SQL 为主要语言设计的支持工具和框架，这些角色的人员比以往任何时候都更有能力。

本章将探讨几乎每个数据管道都会用到的非上下文转换，以及支持仪表盘、报告和一次性业务问题分析的数据模型。由于 SQL 是数据分析师和分析工程师的语言，因此大多数转换代码示例都是用 SQL 编写的。我在这里提供一些用 Python 编写的示例，以说明在什么情况下使用强大的 Python 库将非上下文转换与数据摄取紧密结合是有意义的。

与第4章和第 5 章中的数据摄取一样，这些代码示例经过了高度简化，旨在作为更复杂转换的起点。要了解如何运行和管理转换与管道中其他步骤之间的依赖关系，请参阅第 8 章。

非语境转换

在第 3 章中，我简要地指出了 EtLT 子模式的存在，其中小写t代表一些非上下文数据转换，如以下内容：

重复表格中的记录
将 URL 参数解析为单个组件

虽然有无数的示例，但通过提供这些转换的代码示例，我希望能涵盖一些非上下文转换的常见模式。下一节将讨论在数据摄取（ETLT）和数据摄取后（ELT）过程中执行这些转换的合理性。

重复表中的记录

尽管并不理想，但在数据仓库的数据表中还是有可能存在重复记录。出现这种情况有多种原因：

增量数据摄取会错误地与之前的摄取时间窗口重叠，并拾取一些在之前的运行中已经摄取的记录。
无意中在源系统中创建了重复记录。
回填的数据与摄取时加载到表中的后续数据重叠。

无论什么原因，检查和删除重复记录最好使用 SQL 查询。以下每个 SQL 查询都涉及表 6-1 所示数据库中的Orders 表。该表包含五条记录，其中两条是重复的。虽然OrderId 1 有三条记录，但第二行和第四行完全相同。本示例的目的是识别并解决这一重复问题。虽然本例中有两条完全相同的记录，但如果表中有三条、四条甚至更多相同记录的副本，下面代码示例中的逻辑也是有效的。

表 6-1. 有重复订单的订单表
订单号	订单状态	最后更新
1	已被预订	2020-06-01
1	已发货	2020-06-09
2	已发货	2020-07-11
1	已发货	2020-06-09
3	已发货	2020-07-12

如果您想创建一个这样的Orders 表，并在例6-1和例6-2 中使用，下面是实现这一目的的 SQL：

CREATE TABLE Orders (
  OrderId int,
  OrderStatus varchar(30),
  LastUpdated ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9798341657809

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design