第 7 章 糟糕的语义学
本作品已使用人工智能进行翻译。欢迎您提供反馈和意见:translation-feedback@oreilly.com
词语具有奇妙的弹性。它们可以被错误发音、错误拼写、错误使用或错误翻译。即使是最精确的专业术语,也可以被拉伸成动词或形容词、俚语或成语,一直被拉伸,直到它发现自己正对着自己,成为镜像,与自己完全相反。记住我的话,它可以。
罗恩-布拉金
在第 2 章中,我们看到了许多语义建模语言和框架是如何根据特定的含义和行为(如rdfs:subClassOf 表示类的归属或skos:exactMatch 表示实体的相互链接)来提供某些预定义的建模元素的。然而,建模者在使用语言时并不总是遵循这种含义。将近义词定义为同义词,将实例定义为类,或将非传递关系定义为传递关系,这些都是导致模型出现问题的常见语义错误的例子。
本章汇集了在构建或使用语义模型时最常见的错误,并提供了避免这些错误的指导原则和启发式方法。
不良身份
语义建模中的同一性是指确定两个元素是否具有相同含义的问题。 根据不同的领域和元素种类,这可能是一项相当困难的任务,如果我们不仔细处理,可能会导致语义模型不准确,从而产生错误的推论。让我们来看看为什么会出现这种情况,以及如何避免一些常见的陷阱。
糟糕的同义词
正如我们在第 2 章中所看到的,词法化关系 将语义模型的元素(实体、关系、属性等)与一个或多个可用于用自然语言表达它们的术语联系起来。因此,这些术语被解释为彼此的同义词。
当人们(因此也包括模型)把实际含义并不相同的术语定义为同义词时,问题就开始了。例如,表 7-1分别列出了ESCO 和Babelnet(整合了维基百科、WordNet 和其他资源的大型多语种百科词典和语义网络)中实体Economist 和Arsenal FC 的标签。 据此,一个 Interest Analyst与Labor Economist 同义,而Arsenal FC 与Manchester United 是同一个团队。
因此,如果您是一名求职者,并使用由 ESCO 驱动的语义搜索引擎查找Interest Analyst 的空缺职位,您也将获得以下职位的空缺职位 economic scholars(反之亦然)。或者,如果您是曼联队的球迷,您想让基于 Babelnet 的智能助手为您预订下一场比赛的门票,那么您很可能最终去了伦敦,而不是曼彻斯特。换句话说,由于同义词意味着(几乎)意义的互换性,如果您没有正确理解同义词,那么具有不同意义的术语可能会被错误地认为是完全等同的。
| 模型 | 实体 | 同义词 |
|---|---|---|
ESCO |
|
经济科学研究员、宏观分析师、经济分析师、经济研究科学家、劳动经济学家、社会经济学家、利益分析师、计量经济学家、经济研究员、经济物理学家、经济科学家、经济学者、经济研究分析师 |
ESCO |
|
高级执行官、董事长、首席执行官、常务董事、总裁 |
词汇网 |
|
CEO,首席运营官 |
巴别网 |
|
红魔"、阿森纳足球俱乐部、Diablos Rojos、曼联 |
ESCO |
|
管理客户、准备客户、监督客户 |
KBpedia |
|
专业会计师、会计资格和监管、公共会计、豆子计数器 |
现在,自动同义词检测是一项相当具有挑战性的任务,而且仍然不准确,因此,像 Babelnet ...