
数据处理流水线
|
293
复杂业务关键型数据处理流水线。无论你是直接负责流水线,还是依赖于流水线产
生数据的其他服务,我们都希望本章中的信息可以帮助你实现更可靠的流水线(和
服务)。
有关
Google
数据处理流水线理念的全面讨论,请参阅我们的第一本
SRE
书的第
25
章。
流水线应用
流水线有各种各样的应用,每个应用都有自己的优势和适合的应用场景。流水线可
以包含多个阶段,每个阶段都是一个依赖于其他阶段的独立过程。一个流水线可能
包含的多个阶段可以抽象为高层次的范式。
Cloud Dataflow
是一个示例:用户使用相
对高层次的
API
编写业务逻辑,而流水线技术本身将此数据转换为一系列步骤或阶
段,其中的一个输出是另一个的输入。为了让你对流水线应用有更广泛的认识,接
下来我们将介绍各种流水线应用及其推荐的用法。我们例子里的两个公司有不同的
流水线和实现要求,我们将展示他们用不同的方式来满足各自的数据需求。这些示
例阐述了:如何根据你的特定用例来定义项目目标,以及如何使用这些目标来明智
地选择出最适合你的数据流水线类型。
从事件处理
/
数据转置到有序或结构化数据
萃取、转置、加载(
Extract Transform Load
,
ETL
)模型是数据处理中的常见方法:
从数据源中萃取、并转置(可能进行)逆规范化,然后“重新加载”为特定的格式。
在更先进的应用中,这看起来可能像是一个认知过程:数据从某种传感器(实时或
回放)中获取,经过挑选、编码阶段后,对特定的数据结构进行“训练”(如机器
学习网络)。
ETL
流水线的方式工作也很类似。 ...