前言
当我在 2010 年代中期开始关注数据编目工作时,数据分析世界已经到了一个拐点。以数据湖为中心、通常与内部 Hadoop 集群相连的大型现代数据基础架构项目已经达到了一定的成熟度。技术架构已经就位。然而,创新和价值创造的承诺--最初支持在企业基础设施上投入巨资的论据--除了由充满激情的开拓团队推动的几个用例之外,几乎没有取得任何成果。
我认为这种相对的失败与其说是技术本身的问题,不如说是这些新的横向基础设施的管理问题造成的。这些失败表现在两个截然相反的方面。
在某些情况下,由于缺乏管理,数据湖变成了数据沼泽--巨大的存储空间中包含的数据,其内容和来源无人知晓,也无人知道如何使用。
在其他情况下,部署复杂的治理工具将数据锁定在复杂和官僚的程序中,从而抑制了创新核心所需的 Agile 和实验。
因此,企业开始将其分析基础设施迁移(或创建)到 Cloud(自 2010 年代中期以来,Cloud 解决方案的技术水平有了大幅提升),并重新思考如何以最佳方式管理需要开发的海量数据。
当然,关于现代数据架构有很多可说的,但我对数据管理方面特别感兴趣,因为它存在的时间比人们想象的要长。
早在古希腊时期,我们就开始处理大量信息。从那时起,我们就一直面临着如何组织信息,使其在最佳条件下发挥作用的挑战。
卡里马库斯是古希腊诗人、学者和亚历山大图书馆馆长。他很可能是从泽诺多图斯手中接过大图书馆馆长一职的,泽诺多图斯本人是德米特里厄斯-法勒雷乌斯的继承人。德米特里厄斯被认为是希腊最伟大的思想家之一,他是大图书馆的创建者和建筑师,曾监督收集了数以万计的纸莎草纸卷轴。与大多数前现代的博学者一样,德米特里厄斯很可能拥有惊人的记忆力,这可能帮助他回忆起图书馆中的每一本书及其位置,从而使他能够回答经常光顾图书馆的同事和研究人员的问题。当创建数据湖的团队搬迁到新的牧场时,这些概览性知识自然会随他而去,这给卡利马科斯留下了一个当今任何数据管理者都会遇到的问题--数据团队的人员流动率可能非常高。德米特里厄斯基本上就是一个活生生的索引和搜索引擎,没有他,图书馆读者就无法快速确定他们需要查阅哪些资料,也无法快速找到这些资料。他们需要浏览图书馆才能找到所需的资料。
我觉得卡利马科斯面临的挑战与今天现代企业在数据湖方面面临的挑战如出一辙。
卡里马库斯想到了一个解决办法,其原理至今仍然有效。他为图书馆中的所有纸莎草纸卷轴建立了一个完整的登记簿,并按字母顺序排列,以便为内容编制索引。这些被命名为"Pinakes"的登记簿(已发现一些残片)包含作者的传记信息以及卷轴的书目描述:标题、开头语、每卷的行数、文学体裁/学科和主题。特定类别中的作者和同一作者的书名按字母顺序排列,借鉴了亚里士多德的分类方法,但应用范围更大。
从根本上说,他开发了一套元数据系统,无需实际阅读卷轴即可提供每卷的相关信息。然后,他将这些元数据编入索引登记册。实际上,他对图书馆的内容进行了编目。我猜想他还定义了一系列程序,以确保随着时间的推移图书馆不断增加新书,目录也能得到维护。在前数字时代,这一定是一项巨大的工作。
今天,正如亚历山大时代一样,元数据管理、组织和索引是管理信息并让最多用户获取信息的关键。信息发布专家对此深有体会。显然,媒体图书馆是这样,视频流媒体平台(你能想象没有信息索引的 Netflix 吗?毕竟,谷歌是一个庞大的收集、生产和结构化元数据索引工具。信息发布专家明白,元数据与数据本身同样重要。事实上,正是元数据使他们的客户能够选择他们希望使用的内容,也正是元数据使数据能够产生价值。我们在浏览自己的硬盘时都会有这样的体验。文件系统只不过是一种相当简约的元数据管理安排,如果没有它,我们就不可能理解我们存储的成千上万份文件。 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access