Skip to Content
企业数据目录
book

企业数据目录

by Ole Olesen-Bagneux
May 2025
Beginner to intermediate
218 pages
2h 29m
Chinese
O'Reilly Media, Inc.
Content preview from 企业数据目录

第 4 章 应用搜索 应用搜索:从简单到高级模式

本作品已使用人工智能进行翻译。欢迎您提供反馈和意见:translation-feedback@oreilly.com

在上一章中,我们讨论了搜索在数据目录中的工作原理,以及了解搜索机制如何改进搜索 方式,从而提升数据目录的价值。你必须记住,搜索取决于你如何很好地组织数据目录中的数据。如果数据目录中的元数据很差,即使你为所需内容编写了完美的查询语句,搜索也很难返回任何内容。

这就涉及到如何应用搜索。应用搜索是一门手艺,与理解技术本身不同。首先,在搜索数据时,你需要像图书馆员那样搜索数据,而不是像数据科学家那样搜索数据。有了图书馆员的思维方式,你就能找到创造性的方法来解锁搜索功能。简单搜索可以通过各种方式提高或降低精确度,以便进行更广泛的搜索或只搜索极少的点击。浏览可以在数据中进行导航并了解其上下文--另外一个好处是,这种上下文可用于完善简单搜索和复杂搜索。正如简单搜索可以有多种不同的使用方式一样,复杂搜索也是如此。

本章所学只是一个开始。您需要进一步调整和完善应用搜索,使其符合贵公司的语言和目的。

像图书管理员一样搜索,而不是像数据科学家一样搜索

数据科学家 擅长分析数据--从小型数据集到海量数据集,他们都拥有在数据中搜索以提取所需结论的工具和思维方式。这就是他们的超级能力。然而,为他们的工作搜索数据可能是一个真正的挑战,因为使他们非常擅长在数据中搜索的技能并不一定适用于搜索数据。大家应该还记得第 3 章的内容,搜索数据与在数据中搜索数据有很大的不同。

另一方面,图书管理员非常擅长查找各种资料--书籍、期刊、论文,无所不包!只要你开口要,他们就能搜索并找到。他们的超能力还包括搜索数据和知道你需要什么数据。

图书馆与信息科学(LIS)与数据科学不同,数据科学在过去几十年中才得到重视,而图书馆与信息科学(LIS)已经存在了数百年,完善知识组织和知识搜索的艺术也同样存在了数百年。

作为一名图书馆员,检索首先意味着要善于评估信息需求,因为信息需求决定了检索 数据的方式。信息需求是 1962 年由 Robert S. Taylor 创造的一个术语,指我们向参考数据库提问的方式。1

您的信息需求可大可小。问一问自己,您是否在搜索

  • 一切

  • 几件好事

  • 唯一正确的事情

  • 你又需要的东西2

您的信息需求决定了您搜索数据的方式,因为需求表达了不同的规模和意图。

一切都需要复杂的搜索,而你的目标是高召回率,但却牺牲了精确度。不过,你可以用多种不同的方法来实现这一目标,本章后面的内容将为你一一介绍。

几件好东西是一种信息需求,并不是那么一目了然。您可以搜索相对较高的召回率,也可以搜索相对较高的精确度,但不能两者兼得。

顾名思义,"唯一正确的事情"的目标是只找到一种资产,或一组精确定义的资产。因此,这些搜索力求精确。

最后,你需要的东西又依赖于你已经知道的资产。它也力求精确,但与唯一正确的东西相比,它的搜索难度较低。

你需要记住的是,在元数据存储库(如数据目录)中搜索数据可能是一个漫长的过程(正如泰勒在 1962 年指出的那样)。所以不要急躁。我们习惯于用谷歌搜索一切,但这只是简单的搜索技术在作祟。搜索数据并不总是这样;可能需要很多步骤才能找到你要搜索的内容,这没关系。你可能需要对搜索进行调整,既要将搜索的目的转化为系统的具体 IRQL 如何工作,又要从这一点出发,包括哪些术语,随后排除或修改哪些术语,等等,通过多步骤的漫长搜索,找到最相关、最有价值的点击。这意味着搜索不仅仅是将一个信息需求转化为一次搜索。这个过程更加微妙,需要经验。 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

AirBnbBlueOriginElectronic ArtsHomeDepotNasdaqRakutenTata Consultancy Services

QuotationMarkO’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.
Julian F.
Head of Cybersecurity
QuotationMarkI wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.
Addison B.
Field Engineer
QuotationMarkI’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.
Amir M.
Data Platform Tech Lead
QuotationMarkI'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.
Mark W.
Embedded Software Engineer

You might also like

机器学习流水线实战

机器学习流水线实战

Hannes Hapke, Catherine Nelson
大数据项目管理:从规划到实现

大数据项目管理:从规划到实现

Ted Malaska, Jonathan Seidman
Python机器学习基础教程

Python机器学习基础教程

Andreas C. Müller, Sarah Guido

Publisher Resources

ISBN: 9798341658172