Skip to Content
企业数据目录
book

企业数据目录

by Ole Olesen-Bagneux
May 2025
Beginner to intermediate
218 pages
2h 29m
Chinese
O'Reilly Media, Inc.
Content preview from 企业数据目录

第 7 章 数据管理 管理数据:改进生命周期管理

本作品已使用人工智能进行翻译。欢迎您提供反馈和意见:translation-feedback@oreilly.com

想象一下,您有一个已经成功实施的数据目录。数据源中的数据逐渐被推送/拉入数据目录,数据目录正在被组织中的每个人使用。数据目录正在有机地成长,像社交网络一样拥有强大、分散的节点。资产将获得元数据--术语、描述、所有权等--并被分配给它们,公司的 IT 环境变得可被发现。

现在,您已经有了一个可用的数据目录,您可以利用它对 IT 环境中的数据进行更好的数据生命周期管理。这是一场小小的革命,一旦开始运行,就会得到回报。因此,本章内容包括

  • 利用数据目录管理 IT 环境中的数据生命周期

  • 管理数据目录中的数据资产、术语等的生命周期

在本章结尾,我还将讨论数据可观测性,这将把数据管理推向数据生命周期的更早阶段。

数据生命周期管理的价值以及数据目录改变游戏规则的原因

在 数据科学、计算机科学、数据工程和相邻学科中, 数据工程生命周期是众所周知的。这个生命周期的目的是从源系统中获取数据,为机器学习、商业智能等用例服务。但是,正如 Fundamentals of Data Engineering(《数据工程基础》)一书所指出的那样、1数据工程生命周期只是整个数据生命周期的一部分。从高层次管理数据的整个生命周期实际上是律师、合规专家、数据经理和数据架构师的工作。

本章涉及整个数据生命周期。它之所以重要,是因为数据目录有幸能够大幅改善数据生命周期管理,为企业带来巨大收益。

方法如下

想象一下,你是一名律师、合规专家或数据架构师(当然,除非你属于这些职业之一,否则根本不用想象!)。这些员工要想跟踪数据生命周期,无疑是一场艰苦的战斗,而且会带来巨大的后果。

让我们来看看律师和合规专家。他们的部分工作是确保数据在公司内保存足够长的时间。公司被迫将某些数据保存一段时间。食品药品管理局(FDA)可以要求制药公司保存数据(例如,产品寿命加 35 年),因为公司必须始终能够证明其药品只有已知的、指明的副作用。如果 FDA 等机构发现数据在保留期结束前被删除或丢失,那么它可以发出警告信或关闭药品生产--基本上,关闭公司的部分部门整个公司,因为它无法管理数据的生命周期!

有时,律师和合规专家必须出于相反的目的管理数据生命周期:必须在特定时间后删除某些数据。如果当局在检查时发现了这一点,那么与不遵守这一规定相关的罚款将非常严重。例如,如果一家公司没有删除本应删除的数据,GDPR 罚款可达该公司全球年营业额的 4%。2021 年,亚马逊因数据生命周期管理不善而未遵守 GDPR,被欧盟罚款 7.46 亿欧元(8.65 亿美元)。

现在,让我们考虑一下数据架构师。 大规模数据迁移项目经常失败。哪些数据应该删除,哪些数据应该迁移到新系统中,以及如何迁移?数据迁移项目往往是被低估的工作,而这些项目最终往往会耗费巨资。

如果不正确管理数据生命周期,就会在监管、法律和财务方面造成致命后果。能够管理数据生命周期是一件非常重要的事情。

然而,迄今为止,管理数据生命周期的技术支持还不多。某些系统已经存在,但大多数都依赖于人工描述数据类型,以及如何从数据生命周期的后期阶段(即数据归档阶段)对其进行管理。

在本章中,我将展示数据目录在管理数据生命周期方面是多么有力的游戏规则改变者。有史以来第一次,企业有了一种工具,可以通过数据目录中的元数据表示,直接对其 IT 环境中的数据进行有效的自动化数据生命周期管理。

不过,不仅数据目录的最终用户可以从本章学到一些东西。数据目录显然是由计算机科学家等人创建的。这就意味着,并没有多少数据目录提供商完全了解他们的技术在更好地控制整个数据生命周期方面有多高效,因为这并不是他们自然关注的重点。 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

AirBnbBlueOriginElectronic ArtsHomeDepotNasdaqRakutenTata Consultancy Services

QuotationMarkO’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.
Julian F.
Head of Cybersecurity
QuotationMarkI wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.
Addison B.
Field Engineer
QuotationMarkI’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.
Amir M.
Data Platform Tech Lead
QuotationMarkI'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.
Mark W.
Embedded Software Engineer

You might also like

机器学习流水线实战

机器学习流水线实战

Hannes Hapke, Catherine Nelson
大数据项目管理:从规划到实现

大数据项目管理:从规划到实现

Ted Malaska, Jonathan Seidman
Python机器学习基础教程

Python机器学习基础教程

Andreas C. Müller, Sarah Guido

Publisher Resources

ISBN: 9798341658172