book

数据管道速查手册

by James Densmore

May 2025

Intermediate to advanced

276 pages

2h 34m

Chinese

O'Reilly Media, Inc.

Book available

Read now

Unlock full access

本书适合人群本书使用的约定使用代码示例O'Reilly 在线学习如何联系我们致谢
什么是数据管道？谁在构建数据管道？SQL 和数据仓库基础知识Python 和/或 Java分布式计算基本系统管理目标导向的心态为什么要建立数据管道？管道是如何建造的？
数据来源的多样性源系统所有权输入界面和数据结构数据量数据的清洁度和有效性源系统的延迟和带宽云数据仓库和数据湖数据输入工具数据转换和建模工具工作流协调平台有向无环图定制您的数据基础设施
ETL 和 ELT相对于 ETL 而出现的 ELTEtLT 子模式用于数据分析的 ELT数据科学英语语言教学用于数据产品和机器学习的 ELT机器学习管道的步骤在管道中纳入反馈意见有关 ML 管道的更多阅读
设置 Python 环境设置云文件存储从 MySQL 数据库提取数据完整或增量式 MySQL 表提取MySQL 数据的二进制日志复制从 PostgreSQL 数据库提取数据完整或增量 Postgres 表提取使用先写日志复制数据从 MongoDB 提取数据从 REST API 提取数据使用 Kafka 和 Debezium 进行流式数据输入
将 Amazon Redshift 仓库配置为目的地将数据载入 Redshift 仓库增量与满载加载从 CDC 日志中提取的数据将 Snowflake 仓库配置为目的地将数据加载到 Snowflake 数据仓库中将文件存储作为数据湖开放源代码框架商业替代方案
非语境转换重复表中的记录解析 URL何时转化？摄入期间还是摄入之后？数据建模基础关键数据建模术语完全刷新数据建模缓慢变化尺寸，全面刷新数据增量摄入数据建模仅对附录数据建模建模变化捕捉数据
有向无环图Apache 气流设置和概述安装和配置气流数据库网络服务器和用户界面调度员执行人操作员构建气流 DAG简单的 DAGELT 管道 DAG其他管道任务警报和通知数据验证检查高级协调配置耦合与非耦合管道任务何时拆分 DAG用传感器协调多个 DAG托管气流选项其他协调框架
尽早验证，经常验证源系统数据质量数据输入风险启用数据分析师验证一个简单的验证框架验证器框架代码验证测试的结构运行验证测试气流 DAG 中的使用何时停止管道输送，何时发出警告并继续输送扩展框架验证测试示例摄入后的重复记录摄入后行计数的意外变化指标值波动商业和开源数据验证框架
处理源系统中的更改引入抽象维护数据合同读取模式的局限性扩展复杂性数据输入标准化重复使用数据模型逻辑确保依赖完整性

主要管道指标准备数据仓库数据基础设施模式记录和输入性能数据从 Airflow 获取 DAG 运行历史记录为数据验证器添加日志记录转换绩效数据DAG 成功率DAG 运行时间随时间的变化验证测试量和成功率协调性能管道性能 DAG绩效透明度

Content preview from 数据管道速查手册

第 4 章数据导入数据导入：提取数据

本作品已使用人工智能进行翻译。欢迎您提供反馈和意见：translation-feedback@oreilly.com

如第 3 章所述，ELT 模式是为数据分析、数据科学和数据产品而构建的数据管道的理想设计。 ELT 模式的前两个步骤，即提取和加载，统称为数据摄取。本章将讨论如何为这两个步骤设置开发环境和基础架构，并介绍从各种源系统中提取数据的具体方法。第 5 章讨论将生成的数据集加载到数据仓库中。

备注

本章中的提取和加载代码示例是完全相互分离的。第 7 章将讨论如何协调这两个步骤以完成数据摄取。

如第 2 章所述，有许多类型的源系统需要提取数据，也有许多目的地需要加载数据。此外，数据的形式多种多样，所有这些都给数据采集带来了不同的挑战。

本章和下一章包括从常用系统导出和导入数据的代码示例。代码经过高度简化，只包含最低限度的错误处理。每个示例都旨在为数据摄取提供一个易于理解的起点，但功能齐全，可扩展至更多可扩展解决方案。

备注

本章的代码示例将提取的数据写入 CSV 文件，然后加载到目标数据仓库中。有时，在加载之前以另一种格式（如 JSON）存储提取的数据更有意义。在适用的情况下，我会指出您可能需要考虑进行这种调整的地方。

第 5 章还讨论了一些可以利用的开源框架，以及为数据工程师和分析师提供 "低代码 "数据摄取选项的商业替代方案。

设置 Python 环境

接下来的所有代码示例都是用 Python 和 SQL 编写的，并使用了当今数据工程领域常见的开源框架。为简单起见，源和目的地的数量有限。不过，在适用的情况下，我会提供如何修改类似系统的说明。

要运行示例代码，您需要一台运行 Python 3.x 的物理机或虚拟机。

如果您的机器上没有安装 Python，您可以直接从他们那里获取适用于您操作系统的发行版和安装程序。

备注

以下命令是为 Linux 或 Macintosh 命令行编写的。在 Windows 上，可能需要将 Python 3 可执行文件添加到 PATH。

在安装本章使用的库之前，最好先创建一个虚拟环境来安装它们。为此，您可以使用一个名为virtualenv 的工具。virtualenv 对于管理不同项目和应用程序的 Python 库很有帮助。它允许您在项目的特定范围内安装 Python 库，而不是全局安装。首先，创建一个名为env 的虚拟环境。

$ python -m venv env

虚拟环境已创建，请使用以下命令激活它：

$ source env/bin/activate

您可以通过两种方式验证虚拟环境是否已激活。首先，您会注意到命令提示符现在以环境名称为前缀：

(env) $

您还可以使用which python 命令来验证 Python 在哪里寻找库。您应该会看到类似下面的内容，它显示了虚拟环境目录的路径：

(env) $ which python
env/bin/python

现在可以安全地安装后续代码示例所需的库了。

备注

在某些操作系统 (OS) 上，必须使用python3 而不是python 才能运行 Python 3.x 可执行文件。旧版本的操作系统可能默认使用 Python 2.x。您可以通过键入python --version 查找您的操作系统使用的 Python 版本。

在本章中，您将使用pip 安装代码示例中使用的库。 pip是大多数 Python 发行版随附的工具。

使用pip 安装的第一个库是configparser ，它将用于读取稍后添加到文件中的配置信息。 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Start your free trial

What Employees Want Most in Uncertain Times

Publisher Resources

ISBN: 9798341657809

数据管道速查手册

by James Densmore

第 4 章数据导入数据导入：提取数据

备注

备注

设置 Python 环境

备注

备注

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

You might also like

What Employees Want Most in Uncertain Times

How I Built a Personal Board of Directors With GenAI

Reinventing the Organization for GenAI and LLMs

What Successful Project Managers Do

Publisher Resources

第 4 章 数据导入 数据导入：提取数据

备注

备注

设置 Python 环境

备注

备注

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,and much more.

You might also like

What Employees Want Most in Uncertain Times

How I Built a Personal Board of Directors With GenAI

Reinventing the Organization for GenAI and LLMs

What Successful Project Managers Do

Publisher Resources

第 4 章数据导入数据导入：提取数据

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.