第8章 信息检索:访问信息

信息检索是自然语言处理的众多应用之一。信息检索可以定义为检索用户一次查询所对应的相关信息(例如,单词Ganga 在文档中所出现的次数)的过程。

本章将涵盖以下主题:

  • 信息检索简介。
  • 停止词删除。
  • 使用向量空间模型进行信息检索。
  • 向量空间评分及查询操作符关联。
  • 使用隐性语义索引开发一个IR系统。
  • 文本摘要。
  • 问答系统。

信息检索可以定义为检索最合适的信息作为用户查询响应的过程。在信息检索中,搜索是基于元数据或基于上下文的索引进行的。Google搜索就是信息检索的一个例子,其中对于用户的每一次查询,Google搜索都会基于所使用的信息检索算法为其提供一个响应。信息检索算法使用了索引机制,其所使用的索引机制被称为倒排索引。为了执行信息检索任务,信息检索(IR)系统会建立一个索引标记列表。

布尔检索是一种信息检索任务,在该任务中,布尔操作符被应用在标记列表上以便检索相关的信息。

信息检索任务的准确度是依据精确率和召回率来度量的。

假定一个给定的信息检索系统执行一次查询时返回X个文档。但是需要返回的实际或黄金文档集个数是Y。

召回率可以定义为信息检索系统所查找到的部分黄金文档数。它也可以定义为真正类与真正类和假负类的并集之比。

Recall (R) = ( X ∩ Y ) / Y

精确率可以定义为信息检索系统检测到并且正确的部分文档数。

Precision (P) = ( X ∩ Y ) / X

F值可以定义为精确率和召回率的调合平均值。

F-Measure = 2 * ( X ∩ Y ) / ( X + Y )

在执行信息检索任务时,检测文档中的停止词并删除它们是至关重要的。

让我们来看看如下NLTK中的代码,其用于获取英文中可以被检测到的停止词集合。 ...

Get 精通Python自然语言处理 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.