第 5 章 源系统中的数据生成 源系统中的数据生成
本作品已使用人工智能进行翻译。欢迎您提供反馈和意见:translation-feedback@oreilly.com
欢迎来到数据工程生命周期的第一阶段:在源系统中生成数据。如 前所述,数据工程师的工作是从源系统中获取数据,对其进行处理,使其有助于为下游用例提供服务。但是,在获取原始数据之前,您必须了解数据的存在位置、生成方式及其特征和怪癖。
本章将介绍一些常用的运行源系统模式和重要的源系统类型。目前有许多用于生成数据的源系统,我们不会详尽无遗地介绍所有这些系统。我们将讨论这些系统生成的数据,以及在使用源系统时应考虑的事项。我们还将讨论数据工程的暗流如何应用于数据工程生命周期的第一阶段(图 5-1)。
图 5-1. 源系统为数据工程生命周期的其余部分生成数据
随着数据的激增,特别是数据共享的兴起(将在下文中讨论),我们预计数据工程师的职责将在很大程度上转向了解数据源和目的地之间的相互作用。数据工程的基本管道任务--将数据从 A 处移至 B 处--将大大简化。另一方面,了解数据在源系统中创建时的性质仍然至关重要。
数据来源:数据是如何创建的?
在了解产生数据的系统的各种基本运行模式时,了解数据是如何产生的至关重要。数据是事实和数字的无组织、无上下文的集合。它可以通过多种方式创建,既可以是模拟的,也可以是数字的。
模拟数据创建 发生在现实世界中,如发声说话、手语、在纸上写字或演奏乐器。这种模拟数据往往是瞬时的;你曾有过多少次口头对话,对话结束后内容就消失在茫茫人海中了?
数字数据要么是通过将模拟数据转换为数字形式而生成的 ,要么是数字系统的原生产品。将模拟语音转换为数字文本的移动发短信应用程序就是一个将模拟语音转换为数字文本的例子。数字数据创建的一个例子是电子商务平台上的信用卡交易。客户下订单后,交易费用从其信用卡中扣除,交易信息被保存到各种数据库中。
我们将在本章中举出几个常见的例子,例如与网站或移动应用程序交互时产生的数据。但事实上,数据在我们周围的世界中无处不在。我们从物联网设备、信用卡终端、望远镜传感器、股票交易等处获取数据。
熟悉源系统及其生成数据的方式。努力阅读源系统文档,了解其模式和怪癖。如果您的源系统是 RDBMS,请了解它的运行方式(写入、提交、查询等);了解源系统中可能会影响您从该系统摄取数据的能力的细节。
源系统:主要理念
源系统 生成数据的方式多种多样。本节将讨论在使用源系统时经常会遇到的主要观点。
文件和非结构化数据
文件是 一个字节序列,通常存储在磁盘上。应用程序经常将数据写入文件。文件可以存储本地参数、事件、日志、图像和音频。
此外,文件还是一种通用的数据交换媒介。尽管数据工程师们希望能以编程方式获取数据,但世界上大部分地方仍然在发送和接收文件。例如,如果您从政府机构获取数据,很有可能下载的是 Excel 或 CSV 文件,或者通过电子邮件收到文件。
作为一名数据工程师,您会遇到的 主要源文件格式类型有 Excel、CSV、TXT、JSON 和 XML,这些文件要么是手动生成的,要么是源系统流程的输出。这些文件各有特点,可以是结构化文件(Excel、CSV)、半结构化文件(JSON、XML、CSV)或 非结构化文件(TXT、CSV)。虽然作为数据工程师,您会大量使用某些格式(如 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access