Skip to Content
数据管道速查手册
book

数据管道速查手册

by James Densmore
May 2025
Intermediate to advanced
276 pages
2h 34m
Chinese
O'Reilly Media, Inc.
Content preview from 数据管道速查手册

第 1 章. 数据管道简介

本作品已使用人工智能进行翻译。欢迎您提供反馈和意见:translation-feedback@oreilly.com

每一个光鲜亮丽的仪表盘、机器学习模型和改变业务的洞察力背后都有数据的支撑。不仅仅是原始数据,而是从众多来源收集的数据,这些数据必须经过清理、处理和组合才能产生价值。事实证明,"数据是新的石油 "这句名言是正确的。就像石油一样,数据的价值在于其经过提炼并交付给消费者之后的潜力。也像石油一样,需要高效的管道将数据输送到价值链的每个阶段。

本袖珍参考书讨论了什么是数据管道,并介绍了它们如何融入现代数据生态系统。 它涵盖了实施管道时的常见考虑因素和关键决策点,如批量数据摄取与流式数据摄取、构建工具与购买工具等。虽然它并不局限于某一种语言或平台,但它在讨论适用于自制解决方案、开源框架和商业产品的基本概念的同时,还探讨了数据专业人员最常做出的决策。

什么是数据管道?

数据管道是将数据从各种来源移动和转换到可以产生新价值的目的地的一系列流程。 它们是分析、报告和机器学习功能的基础。

数据管道的复杂程度取决于源数据的大小、状态和结构,以及分析项目的需求。在最简单的形式中,管道可能只从一个源(如 REST API)中提取数据,然后加载到一个目的地(如数据仓库中的 SQL 表)。但实际上,管道通常由多个步骤组成,包括数据提取、数据预处理、数据验证,有时还包括在将数据交付到最终目的地之前训练或运行机器学习模型。管道通常包含来自多个系统和编程语言的任务。此外,数据团队通常拥有并维护众多数据管道,这些管道之间存在依赖关系,必须相互协调。图 1-1展示了一个简单的管道。

dppr 0101
图 1-1. 一个将服务器日志数据加载到 S3 Bucket、进行一些基本处理和结构化并将结果加载到 Amazon Redshift 数据库的简单管道。

谁在构建数据管道?

随着云计算和软件即服务(SaaS)的普及,企业需要了解的数据源数量激增。与此同时,为机器学习模型、数据科学研究和时效性洞察提供数据的需求也比以往任何时候都高。为了跟上时代的步伐,数据工程已成为分析团队的关键角色。数据工程师专门负责构建和维护支撑分析生态系统的数据管道。

数据工程师的工作不仅仅是将数据载入数据仓库。 数据工程师与数据科学家和分析师密切合作,了解数据的用途,并帮助将他们的需求转化为可扩展的生产状态。

数据工程师以确保所提供数据的有效性和及时性为荣。这意味着要进行测试、发出警报并制定应急计划,以防出错。是的,终究会出错!

数据工程师的具体技能在一定程度上取决于其所在组织使用的技术堆栈。不过,所有优秀的数据工程师都具备一些共同的技能。

SQL 和数据仓库基础知识

数据工程师需要知道如何查询数据库,而 SQL 是查询数据库的通用语言。 经验丰富的数据工程师知道如何编写高性能 SQL,并了解数据仓库和数据建模的基础知识。 即使数据团队中包括数据仓库专家,具备仓储基础知识的数据工程师也是更好的合作伙伴,可以填补出现的更复杂的技术空白。

Python 和/或 Java

数据工程师精通哪种语言取决于其团队的技术堆栈,但无论如何,数据工程师都不可能使用 "不需要代码 "的工具来完成工作,即使他们的武器库中有一些不错的工具。 目前,Python 和 Java 在数据工程领域占据主导地位,但 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

AirBnbBlueOriginElectronic ArtsHomeDepotNasdaqRakutenTata Consultancy Services

QuotationMarkO’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.
Julian F.
Head of Cybersecurity
QuotationMarkI wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.
Addison B.
Field Engineer
QuotationMarkI’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.
Amir M.
Data Platform Tech Lead
QuotationMarkI'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.
Mark W.
Embedded Software Engineer

You might also like

What Successful Project Managers Do

What Successful Project Managers Do

W. Scott Cameron, Jeffrey S. Russell, Edward J. Hoffman, Alexander Laufer
How to Overcome a Power Deficit

How to Overcome a Power Deficit

Cyril Bouquet, Jean-Louis Barsoux
The Human Factor in AI-Based Decision-Making

The Human Factor in AI-Based Decision-Making

Philip Meissner, Christoph Keding

Publisher Resources

ISBN: 9798341657809