May 2025
Intermediate to advanced
450 pages
4h 56m
Chinese
本作品已使用人工智能进行翻译。欢迎您提供反馈和意见:translation-feedback@oreilly.com
您已经了解了作为数据工程师可能会遇到的各种源系统以及存储数据的方法。现在,让我们来关注从各种源系统中摄取数据的模式和选择。在本章中,我们将讨论数据摄取(见图 7-1)、摄取阶段的关键工程注意事项、批量和流式摄取的主要模式、你会遇到的技术、开发数据摄取管道时的合作对象,以及暗流在摄取阶段的作用。
数据摄取是 将数据从一个地方移动到另一个地方的过程。数据摄取意味着在数据工程生命周期中将数据从源系统移动到存储中,摄取是中间步骤(图 7-2)。
值得快速对比一下数据摄取和 数据集成。数据摄取是将数据从 A 点移动到 B 点,而数据整合则是将不同来源的数据整合到一个新的数据集中。例如,您可以使用数据集成将客户关系管理系统、广告分析数据和网络分析数据结合起来,创建用户配置文件,并将其保存到数据仓库中。此外,利用反向 ETL,你还可以将新创建的用户配置文件发回客户关系管理系统,这样销售人员就可以使用这些数据对销售线索进行优先排序。我们将在第 8 章讨论数据转换时更全面地介绍数据集成;第 9 章将介绍反向 ETL。
我们还指出,数据摄取不同于 系统内部的摄取。存储在数据库中的数据会从一个表复制到另一个表,或者数据流中的数据会被临时缓存。我们认为这是第 8 章中涉及的一般数据转换过程的另一部分。
当 准备架构或构建摄取系统时,以下是一些与数据摄取有关的主要考虑因素和问题:
Read now
Unlock full access