book

数据管道速查手册

Name: 数据管道速查手册
Author: James Densmore
ISBN: 9798341657809

by James Densmore

May 2025

Intermediate to advanced

276 pages

2h 34m

Chinese

O'Reilly Media, Inc.

Read now

Unlock full access

序言
本书适合人群本书使用的约定使用代码示例O'Reilly 在线学习如何联系我们致谢
1.数据管道简介
什么是数据管道？谁在构建数据管道？SQL 和数据仓库基础知识Python 和/或 Java分布式计算基本系统管理目标导向的心态为什么要建立数据管道？管道是如何建造的？
2.现代数据基础设施
数据来源的多样性源系统所有权输入界面和数据结构数据量数据的清洁度和有效性源系统的延迟和带宽云数据仓库和数据湖数据输入工具数据转换和建模工具工作流协调平台有向无环图定制您的数据基础设施
3.常见的数据管道模式
ETL 和 ELT相对于 ETL 而出现的 ELTEtLT 子模式用于数据分析的 ELT数据科学英语语言教学用于数据产品和机器学习的 ELT机器学习管道的步骤在管道中纳入反馈意见有关 ML 管道的更多阅读
4.数据输入：提取数据
设置 Python 环境设置云文件存储从 MySQL 数据库提取数据完整或增量式 MySQL 表提取MySQL 数据的二进制日志复制从 PostgreSQL 数据库提取数据完整或增量 Postgres 表提取使用先写日志复制数据从 MongoDB 提取数据从 REST API 提取数据使用 Kafka 和 Debezium 进行流式数据输入
5.数据导入：加载数据
将 Amazon Redshift 仓库配置为目的地将数据载入 Redshift 仓库增量与满载加载从 CDC 日志中提取的数据将 Snowflake 仓库配置为目的地将数据加载到 Snowflake 数据仓库中将文件存储作为数据湖开放源代码框架商业替代方案
6.数据转换
非语境转换重复表中的记录解析 URL何时转化？摄入期间还是摄入之后？数据建模基础关键数据建模术语完全刷新数据建模缓慢变化尺寸，全面刷新数据增量摄入数据建模仅对附录数据建模建模变化捕捉数据
7.协调管道
有向无环图Apache 气流设置和概述安装和配置气流数据库网络服务器和用户界面调度员执行人操作员构建气流 DAG简单的 DAGELT 管道 DAG其他管道任务警报和通知数据验证检查高级协调配置耦合与非耦合管道任务何时拆分 DAG用传感器协调多个 DAG托管气流选项其他协调框架
8.管道中的数据验证
尽早验证，经常验证源系统数据质量数据输入风险启用数据分析师验证一个简单的验证框架验证器框架代码验证测试的结构运行验证测试气流 DAG 中的使用何时停止管道输送，何时发出警告并继续输送扩展框架验证测试示例摄入后的重复记录摄入后行计数的意外变化指标值波动商业和开源数据验证框架
9.维护管道的最佳做法
处理源系统中的更改引入抽象维护数据合同读取模式的局限性扩展复杂性数据输入标准化重复使用数据模型逻辑确保依赖完整性

10.测量和监测管道性能
主要管道指标准备数据仓库数据基础设施模式记录和输入性能数据从 Airflow 获取 DAG 运行历史记录为数据验证器添加日志记录转换绩效数据DAG 成功率DAG 运行时间随时间的变化验证测试量和成功率协调性能管道性能 DAG绩效透明度
索引

Content preview from 数据管道速查手册

第 2 章现代数据基础设施现代数据基础设施

本作品已使用人工智能进行翻译。欢迎您提供反馈和意见：translation-feedback@oreilly.com

在决定构建管道的产品和设计之前，值得了解一下现代数据堆栈的组成。与技术领域的大多数事情一样，设计分析生态系统或选择产品和供应商并没有唯一正确的方法。无论如何，有一些关键需求和概念已成为行业标准，并为实施管道的最佳实践奠定了基础。

让我们来看看图 2-1 所示的这种基础架构的关键组件。以后的章节将探讨每个组件如何影响数据管道的设计和实施。

数据来源的多样性

大多数组织都有几十甚至上百个数据源，为其分析工作提供数据支持。数据源在本节涉及的许多方面都各不相同。

源系统所有权

分析团队通常会从组织构建和拥有的源系统以及第三方工具和供应商那里获取数据。例如，一家电子商务公司可能会在其网络应用程序背后的 PostgreSQL（也称 Postgres）数据库中存储来自购物车的数据。他们还可能使用第三方网络分析工具（如 Google Analytics）来跟踪网站的使用情况。要全面了解客户的购买行为，就必须将这两个数据源结合起来（如图 2-2 所示）。因此，以分析此类行为为目的的数据管道首先要从这两个数据源获取数据。

备注

术语 "数据摄取"是指从一个数据源中提取数据并将其加载到另一个数据源中。

出于几个原因，了解源系统的所有权非常重要。首先，对于第三方数据源，你可能会受到哪些数据可以访问以及如何访问的限制。大多数供应商都提供 REST API，但很少有供应商会让你以 SQL 数据库的形式直接访问数据。能让你自定义访问数据的内容和粒度的供应商更是少之又少。

内部构建的系统为分析团队提供了更多定制可用数据和访问方法的机会。然而，它们也带来了其他挑战。系统在构建时是否考虑了数据摄取？答案往往是否定的，这会带来各种影响，从数据摄取给系统带来意外负载到无法增量加载数据。如果幸运的话，拥有源系统的工程团队会有时间和意愿与您合作，但在资源有限的现实情况下，您可能会发现这与与外部供应商合作并无二致。

输入界面和数据结构

无论谁拥有源数据，如何获取数据以及以何种形式获取数据，都是数据工程师在构建新的数据摄取时首先要研究的问题。首先，数据接口是什么？最常见的接口包括以下几种：

应用程序背后的数据库，如 Postgres 或 MySQL 数据库
系统之上的抽象层，如 REST API
Apache Kafka 等流处理平台
包含日志、逗号分隔值 (CSV) 文件和其他平面文件的共享网络文件系统或云存储桶
数据仓库或数据湖
HDFS 或 HBase 数据库中的数据

除界面外，数据结构也各不相同。下面是一些常见的例子：

来自 REST API 的 JSON
来自 MySQL 数据库的结构良好的数据
MySQL ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9798341657809

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills