第 10 章 不良应用
本作品已使用人工智能进行翻译。欢迎您提供反馈和意见:translation-feedback@oreilly.com
计算机毫无用处。它们只能给你答案。
巴勃罗-毕加索
到目前为止,我们看到的陷阱主要与语义模型的开发有关。在本章中,我们将转换视角,探讨在应用程序中应用此类模型时经常出现的错误。这种错误在于,我们假定,仅仅因为该模型是针对与应用程序运行相同的领域或数据类型而设计的,其语义就可以直接适用并对应用程序运行有益。实际上,情况可能并非如此:
-
应用程序的语义需求似乎已被模型的元素所涵盖,但它们之间存在着微妙而关键的差异,这使得模型变得无用甚至有害
-
应用的语义需求已被模型的元素覆盖,但模型中包含的额外元素不仅多余,而且实际上对应用有害
在下文中,我们将了解这两个问题如何出现在语义模型的两个常见应用中,即实体解析和语义相关性计算,以及我们如何在每种情况下解决这些问题。
不良实体解决
实体解析是一项信息提取任务,包括检测文本中提及的实体 ,并将其映射到给定语义模型中的相应实体。例如,请看以下来自 IMDb 对 1997 年电影《钢铁》(Steel)评论的文本:
这就是收益递减吗?在《蝙蝠侠与罗宾》中,乔治-克鲁尼对阵阿诺德-施瓦辛格。在《战狼》中,迈克尔-杰-怀特对阵约翰-雷吉扎莫。在《钢铁之躯》(STEEL)中,沙奎尔-奥尼尔(Shaquille O'Neal)穿上了高科技手工打造的盔甲,对抗震撼世界的超级邪恶威胁......贾德-尼尔森(Judd Nelson)?
如果我们将使用 DBpedia 作为语义模型的实体解析系统应用于该文本,那么理想情况下,我们将得到表 10-1 所示的实体。
| 实体提及 | DBpedia 实体 |
|---|---|
蝙蝠侠和罗宾 |
|
乔治-克鲁尼 |
|
阿诺德-施瓦辛格 |
|
SPAWN |
|
迈克尔-怀特 |
|
沙奎尔-奥尼尔 |
|
约翰-莱吉扎莫 |
|
钢 |
|
贾德-纳尔逊 |
这项任务的典型问题是模糊性,即一个术语可能指代多个不同实体时出现的情况(见"模糊性")。例如,在前文中,术语 "STEEL "理论上可以指同名的化合物[185]。同样,"SPAWN "一词可以指漫画人物[186],也可以指水生动物释放或沉积到水中的卵子和精子的生物学概念[187]。实体解析系统面临的主要挑战是确定哪个参照物是正确的。
实体解析系统如何使用语义模型
为了检测和消歧文本中的实体提及,实体解析系统通常 利用四种类型的输入:
-
需要进行实体解析的文本集 ...