book

语义建模与数据

by Panos Alexopoulos

May 2025

Beginner to intermediate

330 pages

3h 35m

Chinese

O'Reilly Media, Inc.

Book available

Read now

Unlock full access

谁应该阅读这本书本书值得期待之处图书大纲本书使用的约定O'Reilly 在线学习如何联系我们致谢
什么是语义数据建模？为什么要开发和使用语义数据模型？糟糕的语义建模避免陷阱打破困境
一般要素实体关系班级和个人属性复杂公理、约束和规则条款通用和标准化要素词法化和同义词实例化意义包含和类别/关系归属部分与整体的关系语义相关性制图和相互联系关系文件要素摘要
模糊性不确定性含糊不清刚性、特性、统一性和依赖性对称性、反转性和传递性封闭世界和开放世界假设语义变化摘要
语义准确性完整性一致性简洁及时性相关性可理解性可信度可用性、多功能性和性能摘要
发展活动搭建舞台决定建造什么建设它确保良好使其有用使其持久词汇、模式和示范模型上层本体设计模式标准和参考模式公共模型和数据集语义模型挖掘采矿任务采矿方法和技术摘要
起坏名字树立坏榜样我们为何给人起坏名字力求清晰省略定义或给出错误定义需要定义时我们为何省略定义好的和坏的定义如何获取定义忽略模糊性含糊不清是特点而非缺陷检测和描述模糊性不记录偏见和假设亲近你的敌人摘要
不良身份糟糕的同义词不良映射和相互链接不良子类实例化即子类化部件作为子类刚性类作为非刚性类的子类身份标准不兼容的常见超类糟糕的公理和规则将层次关系定义为传递关系将模糊关系定义为传递关系补充模糊类将推理规则误认为约束条件摘要

建造错误的东西为什么我们会有糟糕的规格如何获得正确的规格糟糕的知识获取错误的知识来源错误的获取方法和工具规范与知识获取的故事模型规格和设计模型人口摘要
不将质量视为一系列权衡取舍的结果语义准确性与完整性简洁与完整简洁与易懂与情境 A 的相关性与与情境 B 的相关性未将质量与风险和效益挂钩没有使用正确的衡量标准使用具有误导性解释的衡量标准使用缺乏比较价值的指标使用具有任意阈值的指标使用实际上是质量信号的指标精确测量含糊断言的准确性将模型质量等同于信息提取质量摘要
不良实体解决实体解析系统如何使用语义模型当知识会伤害你时如何选择消歧-有用知识两个实体解决故事语义关联性差语义关联性为何棘手如何获得您真正需要的语义相关性语义关联故事摘要
糟糕的战略语义模型战略是什么？误信神话和半真半假的话低估复杂性和成本不了解或不应用你的语境不良组织没有建立正确的团队低估治理的必要性摘要
班级还是个人？要不要分门别类？属性还是关系？模糊化还是不模糊化？模糊化涉及哪些方面何时模糊化两个模糊化故事摘要
该如何词法化？如何细化？如何成为将军？如何消极？要处理多少真相？如何相互关联？摘要
模型演变记住还是忘记？跑步还是踱步？React 还是预防？了解语义漂移并采取行动治理模式民主、寡头政治还是独裁？中央集权的故事摘要
地图不是领土乐观但不天真避免隧道视野避免分散注意力的辩论语义框架与非语义框架符号化知识表示与机器学习不造成伤害弥合语义鸿沟

Content preview from 语义建模与数据

第 8 章不良模型规范与知识获取

本作品已使用人工智能进行翻译。欢迎您提供反馈和意见：translation-feedback@oreilly.com

"穆拉，你的戒指丢在房间里了为什么还要在院子里找呢？"

穆拉捋了捋胡须说道："房间里太暗了，我看不清楚。我到院子里来找我的戒指，因为这里光线更充足。

毛拉-纳斯雷丁的经典故事

正如我们在第 5 章中所看到的，在开始构建语义模型之前，我们需要通过明确模型的要求来决定我们到底要开发什么。此外，在构建模型的过程中，我们还需要设计、实施和应用适当的知识获取机制，为我们提供满足这些要求的所有实体、关系和其他模型元素。

遗憾的是，我们常常以一种次优的方式开展这两项活动，结果导致模型价格昂贵，但对用户的价值却微乎其微。本章阐述了这些活动中存在问题的几种做法，并就如何改进这些做法提供了有益的见解。其中许多做法和见解（如数据规范和选择）适用于任何类型的数据科学项目，而不仅仅是语义模型开发。

建造错误的东西

2016 年初加入 Textkernel 时，我迫不及待地开始构建我受雇的知识图谱。在加入公司的第一个月内，我就已经收集了知识图谱的主要需求，并明确了它应该包含的元素。然后，我又花了六个月的时间，以半自动的方式从各种资源中挖掘和整合这些元素，使知识图谱更具实质内容。这项工作的成果是建立了一个包含数千个实体的丰富知识图谱，其准确性可以接受。

我的下一项任务是将该图表集成到 Textkernel 的简历和空缺职位解析和搜索产品中，并帮助他们提高性能。可以说，集成和性能改进都非常困难，所花费的时间也比最初估计的要多得多。为什么呢？因为我没有正确地指定图表，结果构建出来的东西没人能用。如果你也遇到过这种情况，请继续阅读。

为什么我们会有糟糕的规格

我在 Textkernel 工作的第一阶段所犯的主要错误可以总结如下：

我为模型指定的功能没有完全满足要求: 例如，我在模型中实现了术语之间非常严格的同义关系，而将使用该模型的语义搜索系统实际上需要对同义关系进行更宽松的解释，以优化系统的召回率而非精确度。
我没有说明对使用模型至关重要的特征: 例如，我在模型中实现了职业实体的层次结构（使用层次关系narrowerThan ），其深度远远大于使用该模型的简历解析系统所能处理的深度。
我指定的功能实际上对模型的使用是有害的: 例如，我在模型的实体中添加的词法比解析系统能有效消歧的词法要多得多，从而降低了后者的精确度，而不是增加其召回率。
我指定了一些（尚未）有人需要或能够使用的功能: 例如，我在模型中添加并填充了一个关系，该关系代表了就业市场中某一特定职业所需的典型技能，但当时我们的所有产品都无法有效利用这一关系。

现在回想起来，我能想到这些事情发生的几个原因。

首先，在需求收集阶段，我没有要求清晰和具体，尤其是在语义元素和现象方面。人们会告诉我，他们的应用程序需要同义词，但他们真正的意思和需要的是语义相关的术语，以便进行搜索扩展。人们会告诉我，他们希望知识图谱中的实体是有层次关系的，但他们忘了说这种层次关系需要有最大深度。还有人说他们希望在知识图谱中加入某个特定元素，但却不知道他们将如何使用这个元素。

这不是指责游戏，而是现实；我们每个人在日常工作中都带着隐含的假设、偏见和对事物的解释，因此出现这种错位是很自然的（更多例子请参见表 8-1）。在本书的前几章中，我们看到了我们在数据建模领域使用的术语是多么含糊、多变和模糊。同时，我们需要学会预测这些错位，并努力加以解决。

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Start your free trial

What Employees Want Most in Uncertain Times

Publisher Resources

ISBN: 9798341659353

语义建模与数据

by Panos Alexopoulos

第 8 章不良模型规范与知识获取

建造错误的东西

为什么我们会有糟糕的规格

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

You might also like

What Employees Want Most in Uncertain Times

Building Table Views with Phoenix LiveView

Reinventing the Organization for GenAI and LLMs

How I Built a Personal Board of Directors With GenAI

Publisher Resources

第 8 章 不良模型规范与知识获取

建造错误的东西

为什么我们会有糟糕的规格

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,and much more.

You might also like

What Employees Want Most in Uncertain Times

Building Table Views with Phoenix LiveView

Reinventing the Organization for GenAI and LLMs

How I Built a Personal Board of Directors With GenAI

Publisher Resources

第 8 章不良模型规范与知识获取

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.