Skip to Content
数据工程基础知识
book

数据工程基础知识

by Joe Reis, Matt Housley
May 2025
Intermediate to advanced
450 pages
4h 56m
Chinese
O'Reilly Media, Inc.
Audiobook available
Content preview from 数据工程基础知识

第 5 章 源系统中的数据生成 源系统中的数据生成

本作品已使用人工智能进行翻译。欢迎您提供反馈和意见:translation-feedback@oreilly.com

欢迎来到数据工程生命周期的第一阶段:在源系统中生成数据。如 前所述,数据工程师的工作是从源系统中获取数据,对其进行处理,使其有助于为下游用例提供服务。但是,在获取原始数据之前,您必须了解数据的存在位置、生成方式及其特征和怪癖。

本章将介绍一些常用的运行源系统模式和重要的源系统类型。目前有许多用于生成数据的源系统,我们不会详尽无遗地介绍所有这些系统。我们将讨论这些系统生成的数据,以及在使用源系统时应考虑的事项。我们还将讨论数据工程的暗流如何应用于数据工程生命周期的第一阶段(图 5-1)。

图 5-1. 源系统为数据工程生命周期的其余部分生成数据

随着数据的激增,特别是数据共享的兴起(将在下文中讨论),我们预计数据工程师的职责将在很大程度上转向了解数据源和目的地之间的相互作用。数据工程的基本管道任务--将数据从 A 处移至 B 处--将大大简化。另一方面,了解数据在源系统中创建时的性质仍然至关重要。

数据来源:数据是如何创建的?

在了解产生数据的系统的各种基本运行模式时,了解数据是如何产生的至关重要。数据是事实和数字的无组织、无上下文的集合。它可以通过多种方式创建,既可以是模拟的,也可以是数字的。

模拟数据创建 发生在现实世界中,如发声说话、手语、在纸上写字或演奏乐器。这种模拟数据往往是瞬时的;你曾有过多少次口头对话,对话结束后内容就消失在茫茫人海中了?

数字数据要么是通过将模拟数据转换为数字形式而生成的 ,要么是数字系统的原生产品。将模拟语音转换为数字文本的移动发短信应用程序就是一个将模拟语音转换为数字文本的例子。数字数据创建的一个例子是电子商务平台上的信用卡交易。客户下订单后,交易费用从其信用卡中扣除,交易信息被保存到各种数据库中。

我们将在本章中举出几个常见的例子,例如与网站或移动应用程序交互时产生的数据。但事实上,数据在我们周围的世界中无处不在。我们从物联网设备、信用卡终端、望远镜传感器、股票交易等处获取数据。

熟悉源系统及其生成数据的方式。努力阅读源系统文档,了解其模式和怪癖。如果您的源系统是 RDBMS,请了解它的运行方式(写入、提交、查询等);了解源系统中可能会影响您从该系统摄取数据的能力的细节。

源系统:主要理念

源系统 生成数据的方式多种多样。本节将讨论在使用源系统时经常会遇到的主要观点。

文件和非结构化数据

文件是 一个字节序列,通常存储在磁盘上。应用程序经常将数据写入文件。文件可以存储本地参数、事件、日志、图像和音频。

此外,文件还是一种通用的数据交换媒介。尽管数据工程师们希望能以编程方式获取数据,但世界上大部分地方仍然在发送和接收文件。例如,如果您从政府机构获取数据,很有可能下载的是 Excel 或 CSV 文件,或者通过电子邮件收到文件。

作为一名数据工程师,您会遇到的 主要源文件格式类型有 Excel、CSV、TXT、JSON 和 XML,这些文件要么是手动生成的,要么是源系统流程的输出。这些文件各有特点,可以是结构化文件(Excel、CSV)、半结构化文件(JSON、XML、CSV)或 非结构化文件(TXT、CSV)。虽然作为数据工程师,您会大量使用某些格式(如 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

AirBnbBlueOriginElectronic ArtsHomeDepotNasdaqRakutenTata Consultancy Services

QuotationMarkO’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.
Julian F.
Head of Cybersecurity
QuotationMarkI wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.
Addison B.
Field Engineer
QuotationMarkI’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.
Amir M.
Data Platform Tech Lead
QuotationMarkI'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.
Mark W.
Embedded Software Engineer

You might also like

数据库可靠性工程:数据库系统设计与运维指南

数据库可靠性工程:数据库系统设计与运维指南

Laine Campbell, Charity Majors
C++语言导学(原书第2版)

C++语言导学(原书第2版)

本贾尼 斯特劳斯特鲁普
实时数据处理和分析指南

实时数据处理和分析指南

Posts & Telecom Press, Shilpi Saxena, Saurabh Gupta

Publisher Resources

ISBN: 9798341656628