Skip to Content
数据工程基础知识
book

数据工程基础知识

by Joe Reis, Matt Housley
May 2025
Intermediate to advanced
450 pages
4h 56m
Chinese
O'Reilly Media, Inc.
Audiobook available
Content preview from 数据工程基础知识

第 7 章 误食 摄入

本作品已使用人工智能进行翻译。欢迎您提供反馈和意见:translation-feedback@oreilly.com

您已经了解了作为数据工程师可能会遇到的各种源系统以及存储数据的方法。现在,让我们来关注从各种源系统中摄取数据的模式和选择。在本章中,我们将讨论数据摄取(见图 7-1)、摄取阶段的关键工程注意事项、批量和流式摄取的主要模式、你会遇到的技术、开发数据摄取管道时的合作对象,以及暗流在摄取阶段的作用。

图 7-1. 要开始处理数据,我们必须采集数据

什么是数据输入?

数据摄取是 将数据从一个地方移动到另一个地方的过程。数据摄取意味着在数据工程生命周期中将数据从源系统移动到存储中,摄取是中间步骤(图 7-2)。

图 7-2. 系统 1 的数据被输入系统 2

值得快速对比一下数据摄取和 数据集成。数据摄取是将数据从 A 点移动到 B 点,而数据整合则是将不同来源的数据整合到一个新的数据集中。例如,您可以使用数据集成将客户关系管理系统、广告分析数据和网络分析数据结合起来,创建用户配置文件,并将其保存到数据仓库中。此外,利用反向 ETL,你还可以将新创建的用户配置文件发回客户关系管理系统,这样销售人员就可以使用这些数据对销售线索进行优先排序。我们将在第 8 章讨论数据转换时更全面地介绍数据集成;第 9 章将介绍反向 ETL。

我们还指出,数据摄取不同于 系统内部的摄取。存储在数据库中的数据会从一个表复制到另一个表,或者数据流中的数据会被临时缓存。我们认为这是第 8 章中涉及的一般数据转换过程的另一部分。

摄取阶段的主要工程考虑因素

当 准备架构或构建摄取系统时,以下是一些与数据摄取有关的主要考虑因素和问题:

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

AirBnbBlueOriginElectronic ArtsHomeDepotNasdaqRakutenTata Consultancy Services

QuotationMarkO’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.
Julian F.
Head of Cybersecurity
QuotationMarkI wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.
Addison B.
Field Engineer
QuotationMarkI’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.
Amir M.
Data Platform Tech Lead
QuotationMarkI'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.
Mark W.
Embedded Software Engineer

You might also like

数据库可靠性工程:数据库系统设计与运维指南

数据库可靠性工程:数据库系统设计与运维指南

Laine Campbell, Charity Majors
C++语言导学(原书第2版)

C++语言导学(原书第2版)

本贾尼 斯特劳斯特鲁普
实时数据处理和分析指南

实时数据处理和分析指南

Posts & Telecom Press, Shilpi Saxena, Saurabh Gupta

Publisher Resources

ISBN: 9798341656628