book

企业数据目录

Name: 企业数据目录
Author: Ole Olesen-Bagneux
ISBN: 9798341658172

by Ole Olesen-Bagneux

May 2025

Beginner to intermediate

218 pages

2h 29m

Chinese

O'Reilly Media, Inc.

Read now

Unlock full access

前言
序言
谁应该阅读这本书本书导航本书使用的约定O'Reilly 在线学习如何联系我们致谢
I.整理数据以便搜索
1.数据目录简介
数据目录的核心功能创建 IT 全景概览整理数据启用公司数据搜索数据发现数据发现团队数据架构师数据工程师数据发现团队设置最终用户的角色和责任摘要
2.组织数据：设计稳健的搜索架构
在数据目录中组织域数据目录中的领域架构了解领域流程和能力数据来源将资产录入数据目录拉推动在领域中组织资产资产元数据元数据质量分类摘要
3.了解搜索：概念、特点和机制
为什么要在数据目录中搜索？数据目录中的搜索功能在数据中搜索与搜索数据如何搜索数据目录？数据目录查询语言数据目录中的搜索功能说明寻找一切？搜索机制召回率和精确度齐普夫定律偶然性摘要
4.应用搜索：从简单到高级模式
像图书管理员一样搜索，而不是像数据科学家一样搜索搜索模式基本简单搜索详细的简单搜索灵活简单的搜索范围搜索区块搜索声明搜索浏览模式词汇浏览域名浏览世系浏览图表浏览搜索基于图表的数据目录摘要
II.利用数据目录实现数据民主化
5.发现数据：增强最终用户的能力，让利益相关者参与进来
数据目录是一个社交网络活动元数据确保利益相关者的参与让数据管理领导者参与进来让数据分析领导者参与进来让领域领导者参与进来通过一个镜头观察所有数据业务骨干和数据平台摘要
6.获取数据：成功实施的关键
选择数据目录供应商分析一些主要供应商目录中的目录如何获取数据数据提供者和数据消费者集中式方法非集中化方法综合方法构建领域问卷 1：域名所有者对域名和资产的描述问卷 2：资产管理人对领域内资产的描述问卷 3：资产管理人对其资产术语的描述摘要

7.管理数据：改进生命周期管理
数据生命周期管理的价值以及数据目录改变游戏规则的原因各种生命周期数据生命周期使用数据目录进行数据生命周期管理数据目录中的数据资产生命周期词汇表术语生命周期数据源生命周期生命周期影响和支持基于生命周期的应用搜索合规性应用搜索维护最佳做法数据目录之外的数据维护维护数据目录内的元数据改进数据生命周期管理摘要
III.展望数据目录的未来
8.展望未来：公司搜索引擎和改进数据管理
公司搜索引擎Hugin 和 Munin 中的公司搜索引擎从数据到知识公司搜索引擎的中度理论观点公司搜索引擎是新的吗？公司搜索引擎会成为现实吗？摘要
后记
考虑实施数据目录跟我来
附录。数据目录查询语言
索引
关于作者

Content preview from 企业数据目录

前言

当我在 2010 年代中期开始关注数据编目工作时，数据分析世界已经到了一个拐点。以数据湖为中心、通常与内部 Hadoop 集群相连的大型现代数据基础架构项目已经达到了一定的成熟度。技术架构已经就位。然而，创新和价值创造的承诺--最初支持在企业基础设施上投入巨资的论据--除了由充满激情的开拓团队推动的几个用例之外，几乎没有取得任何成果。

我认为这种相对的失败与其说是技术本身的问题，不如说是这些新的横向基础设施的管理问题造成的。这些失败表现在两个截然相反的方面。

在某些情况下，由于缺乏管理，数据湖变成了数据沼泽--巨大的存储空间中包含的数据，其内容和来源无人知晓，也无人知道如何使用。

在其他情况下，部署复杂的治理工具将数据锁定在复杂和官僚的程序中，从而抑制了创新核心所需的 Agile 和实验。

因此，企业开始将其分析基础设施迁移（或创建）到 Cloud（自 2010 年代中期以来，Cloud 解决方案的技术水平有了大幅提升），并重新思考如何以最佳方式管理需要开发的海量数据。

当然，关于现代数据架构有很多可说的，但我对数据管理方面特别感兴趣，因为它存在的时间比人们想象的要长。

早在古希腊时期，我们就开始处理大量信息。从那时起，我们就一直面临着如何组织信息，使其在最佳条件下发挥作用的挑战。

卡里马库斯是古希腊诗人、学者和亚历山大图书馆馆长。他很可能是从泽诺多图斯手中接过大图书馆馆长一职的，泽诺多图斯本人是德米特里厄斯-法勒雷乌斯的继承人。德米特里厄斯被认为是希腊最伟大的思想家之一，他是大图书馆的创建者和建筑师，曾监督收集了数以万计的纸莎草纸卷轴。与大多数前现代的博学者一样，德米特里厄斯很可能拥有惊人的记忆力，这可能帮助他回忆起图书馆中的每一本书及其位置，从而使他能够回答经常光顾图书馆的同事和研究人员的问题。当创建数据湖的团队搬迁到新的牧场时，这些概览性知识自然会随他而去，这给卡利马科斯留下了一个当今任何数据管理者都会遇到的问题--数据团队的人员流动率可能非常高。德米特里厄斯基本上就是一个活生生的索引和搜索引擎，没有他，图书馆读者就无法快速确定他们需要查阅哪些资料，也无法快速找到这些资料。他们需要浏览图书馆才能找到所需的资料。

我觉得卡利马科斯面临的挑战与今天现代企业在数据湖方面面临的挑战如出一辙。

卡里马库斯想到了一个解决办法，其原理至今仍然有效。他为图书馆中的所有纸莎草纸卷轴建立了一个完整的登记簿，并按字母顺序排列，以便为内容编制索引。这些被命名为"Pinakes"的登记簿（已发现一些残片）包含作者的传记信息以及卷轴的书目描述：标题、开头语、每卷的行数、文学体裁/学科和主题。特定类别中的作者和同一作者的书名按字母顺序排列，借鉴了亚里士多德的分类方法，但应用范围更大。

从根本上说，他开发了一套元数据系统，无需实际阅读卷轴即可提供每卷的相关信息。然后，他将这些元数据编入索引登记册。实际上，他对图书馆的内容进行了编目。我猜想他还定义了一系列程序，以确保随着时间的推移图书馆不断增加新书，目录也能得到维护。在前数字时代，这一定是一项巨大的工作。

今天，正如亚历山大时代一样，元数据管理、组织和索引是管理信息并让最多用户获取信息的关键。信息发布专家对此深有体会。显然，媒体图书馆是这样，视频流媒体平台（你能想象没有信息索引的 Netflix 吗？毕竟，谷歌是一个庞大的收集、生产和结构化元数据索引工具。信息发布专家明白，元数据与数据本身同样重要。事实上，正是元数据使他们的客户能够选择他们希望使用的内容，也正是元数据使数据能够产生价值。我们在浏览自己的硬盘时都会有这样的体验。文件系统只不过是一种相当简约的元数据管理安排，如果没有它，我们就不可能理解我们存储的成千上万份文件。 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9798341658172

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

企业数据目录

by Ole Olesen-Bagneux

前言

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.