Skip to Content
理解ETL
book

理解ETL

by Matt Palmer
May 2025
Intermediate to advanced
106 pages
56m
Chinese
O'Reilly Media, Inc.
Content preview from 理解ETL

第 3 章 数据协调 数据协调

本作品已使用人工智能进行翻译。欢迎您提供反馈和意见:translation-feedback@oreilly.com

虽然我们已经讨论了摄取(E、L 和转换(T),但我们只是触及了 ETL 的表面。与将数据管道视为一系列离散步骤相反,存在着在元层面上运行的总体机制,Matt Housley 和 Joe Reis 在《数据工程基础》一书中恰如其分地将其称为 "暗流":

  • 安全

  • 数据管理

  • 数据操作(DataOps)

  • 数据架构

  • 数据协调

  • 软件工程

在本章中,我们将探讨依赖关系管理和管道协调,并介绍协调器的历史,这对于理解某些协调方法为何在当今流行非常重要。我们将提供一系列选项,供您协调自己的数据工作流,并讨论协调中的一些常见设计模式。

我们将讨论 "协调器 "在历史上是如何与 "转换 "工具分离的。尽管我们仍然认为单独的协调器是首选方法,但我们将讨论为什么过去 是这样,为什么将来可能不是这样。

什么是数据协调?

每一个工作流,无论是否是数据流,都需要有序的步骤:不加热水就尝试使用法式榨汁机只会让人失望,而排序不当的数据转换可能会酿成一场风暴,其苦涩程度远远超过一个咖啡因缺乏的清晨(不过,低咖啡因者的困境也不容小觑)。在数据处理中,这些 "步骤 "通常被称为任务和 "工作流",或有向无环图(DAG),我们稍后将深入探讨这一术语。

协调是一个依赖性管理过程,通过自动化得以实现。数据协调器管理调度、触发、监控甚至资源分配。协调器与调度器截然不同,后者仅基于 cron。另一方面,协调器可以根据事件、网络钩子、日程甚至工作流内部的依赖关系进行触发。数据协调提供了一种结构化、自动化和高效的方式来处理来自不同来源的大规模数据。

协调的首要任务是确保管道产生准确、及时的结果。好的协调器还应注重效率、可扩展性和速度,不过正如我们即将讨论的,操作主要发生在协调器 之外

为什么要协调?

协调将工作流导向效率和功能,而协调器则是实现这些工作流的工具。通常,协调器会根据日程或特定事件触发管道。事件驱动管道有利于处理不可预测的数据或资源密集型作业。以下是数据工程工具包中的协调器带来的好处:

工作流程管理

协调器有助于高效地定义、安排和管理工作流程,通过管理依赖关系确保任务以正确的顺序执行。

自动化

作为工程师,我们应该尽可能(或在可行的情况下)实现自动化。协调器可用于自动执行常规、重复甚至复杂的任务,从而节省时间并确保任务按计划运行,而无需人工干预。

错误处理和恢复

协调器通常具有内置的错误处理和恢复机制。它们可以重试失败的任务、通知团队或触发其他任务来解决问题。

监测和警报

监控工作流和接收故障或延迟警报对于维护可靠的数据管道至关重要。协调器提供了这些功能。

资源优化

通过管理任务运行的时间和地点,协调器有助于优化资源使用,这对于资源有限或成本高昂的环境至关重要。

可观察性和调试

协调器提供了工作流的可视化表示、日志管理和其他调试工具,这对于排除故障和优化工作流非常重要。

合规和审计

协调器可保留所有任务的审计跟踪,这对于遵守数据治理和其他监管要求至关重要。

采用协调器是构建稳健、高效和可扩展数据管道的战略性步骤,可确保数据工程流程得到良好的协调、监控和管理。

DAG

有向无环图 "可能是数据工程中最不必要的复杂术语。从图论中借用(出于某种原因),它只是用来描述数据执行的 "树",其中 "任务 "表示为节点,"依赖关系 "表示为边(图 3-1)。这些树是

指导

任务的执行遵循从树的一端到另一端的特定方向,这表明图中存在依赖关系。 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

AirBnbBlueOriginElectronic ArtsHomeDepotNasdaqRakutenTata Consultancy Services

QuotationMarkO’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.
Julian F.
Head of Cybersecurity
QuotationMarkI wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.
Addison B.
Field Engineer
QuotationMarkI’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.
Amir M.
Data Platform Tech Lead
QuotationMarkI'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.
Mark W.
Embedded Software Engineer

You might also like

What Successful Project Managers Do

What Successful Project Managers Do

W. Scott Cameron, Jeffrey S. Russell, Edward J. Hoffman, Alexander Laufer
How to Overcome a Power Deficit

How to Overcome a Power Deficit

Cyril Bouquet, Jean-Louis Barsoux
The Human Factor in AI-Based Decision-Making

The Human Factor in AI-Based Decision-Making

Philip Meissner, Christoph Keding

Publisher Resources

ISBN: 9798341658295