Skip to Content
数据与机器学习平台架构设计
book

数据与机器学习平台架构设计

by Marco Tranquillin, Valliappa Lakshmanan, Firat Tekiner
May 2025
Intermediate to advanced
362 pages
3h 56m
Chinese
O'Reilly Media, Inc.
Content preview from 数据与机器学习平台架构设计

第 6 章 利用企业数据仓库进行创新 利用企业数据仓库进行创新

本作品已使用人工智能进行翻译。欢迎您提供反馈和意见:translation-feedback@oreilly.com

第 3 章中,您了解到,选择数据湖还是数据仓库 作为云数据平台的核心组件,取决于您的组织是工程/科学优先(选择数据湖)还是分析优先(选择 DWH)。在第 5 章中,我们重点介绍了作为数据平台设计核心要素的数据湖概念。在本章中,您将了解如何使用现代数据仓库作为中心元素来解决成本、民主化、灵活性和治理等相同的问题。

首先,我们将快速回顾构建数据平台所要解决的问题,并讨论使 Cloud DWH 成为一种有吸引力的解决方案的技术趋势。然后,我们将深入探讨现代 DWH 架构是什么样的,以及如何利用它有效地为数据分析师和数据科学家提供支持。

现代数据平台

无论何时开展大型技术项目,您都应该首先问问自己,您想要实现哪些业务目标,您当前面临哪些技术挑战,您想要利用哪些技术趋势。在本节中,我们将重点帮助您了解在构建现代数据平台时如何解决这些问题,以及企业级 DWH 方法如何引导数据平台设计的重点。前几章中已经涉及了其中的许多概念,但在此对它们进行重构是非常有用的,因为这将帮助您将现代 DWH 的设计与架构所要解决的问题联系起来。

组织目标

在我们对客户的访谈中,首席技术官们反复提到这些组织 目标的重要性:

无筒仓

数据必须在整个企业内激活 ,因为业务中某个部门的用户需要访问其他部门创建的数据。例如,产品经理在决定如何设计明年的产品时,可能需要访问零售运营团队创建和管理的交易数据。

民主化

数据平台 必须支持领域专家和其他非技术用户,他们可以不通过技术中介访问数据,但应该能够依赖数据的质量和一致性。

发现性

数据平台 必须支持数据工程师和其他需要在不同处理阶段访问数据的技术用户。例如,如果我们有一个数据集,其中的原始传入交易已经过对账,那么数据科学家就需要能够获得对账后的数据集。如果发现不了,他们就会重建一个对账例程。因此,应该能够发现所有这些 "中间 "数据集,从而避免在整个组织内重复处理步骤。

管理工作

数据集应由了解其含义的团队 控制。例如,财务数据应由财务部门而非 IT 部门控制。

单一来源

数据 应就地读取。尽量减少数据的复制和提取。

安全与合规

信息技术应将 作为数据中介,确保只有拥有正确权限的人才能访问数据。必须实施法规(如 GDPR、CCPA、Gramm-Leach-Bliley 法案)要求的所有合规 检查。确保实施解决方案,将数据分为敏感/受限数据与开放或行业特定数据。

易于使用

由于有数以百计的分析师在构建报告,以支持各种功能,因此报告工作更加轻松。

数据科学

提高数据科学团队的工作效率,因为这些职位往往既昂贵又难以聘用。

Agile

更快地为决策者提供见解。

虽然这些目标的相对顺序因组织而异,但所有这些目标都以这样或那样的方式出现在我们采访过的每个组织中。因此,现代数据平台应能让首席技术官实现这些目标 。

技术挑战

是什么阻碍了首席技术官利用他们已经在组织内部部署的技术 来实现这些目标?首席技术官往往会提到这些技术挑战:

大小和规模

随着时间的推移, ,其组织正在收集的数据数量急剧增加,预计还将继续增加。他们目前的系统无法进行扩展,也无法在业务速度和成本的限制下继续运行,因此不得不做出妥协,例如对输入的数据进行采样或对新的数据项目进行优先排序。

复杂的数据和用例

收集的数据越来越多地是非结构化 数据--图像、视频和自然语言文本。他们目前管理结构化数据和非结构化数据的系统并不交叉。然而,在推荐等使用案例中,越来越需要同时使用结构化数据(如产品目录详细信息)和非结构化数据(如产品目录图像、用户评论)。 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

AirBnbBlueOriginElectronic ArtsHomeDepotNasdaqRakutenTata Consultancy Services

QuotationMarkO’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.
Julian F.
Head of Cybersecurity
QuotationMarkI wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.
Addison B.
Field Engineer
QuotationMarkI’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.
Amir M.
Data Platform Tech Lead
QuotationMarkI'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.
Mark W.
Embedded Software Engineer

You might also like

技术主管的进阶之路 (Chinese Edition)

技术主管的进阶之路 (Chinese Edition)

Anemari Fiser
AI工程

AI工程

Chip Huyen

Publisher Resources

ISBN: 9798341656956