第8章 信息检索:访问信息
信息检索是自然语言处理的众多应用之一。信息检索可以定义为检索用户一次查询所对应的相关信息(例如,单词Ganga 在文档中所出现的次数)的过程。
本章将涵盖以下主题:
- 信息检索简介。
- 停止词删除。
- 使用向量空间模型进行信息检索。
- 向量空间评分及查询操作符关联。
- 使用隐性语义索引开发一个IR系统。
- 文本摘要。
- 问答系统。
8.1 信息检索简介
信息检索可以定义为检索最合适的信息作为用户查询响应的过程。在信息检索中,搜索是基于元数据或基于上下文的索引进行的。Google搜索就是信息检索的一个例子,其中对于用户的每一次查询,Google搜索都会基于所使用的信息检索算法为其提供一个响应。信息检索算法使用了索引机制,其所使用的索引机制被称为倒排索引。为了执行信息检索任务,信息检索(IR)系统会建立一个索引标记列表。
布尔检索是一种信息检索任务,在该任务中,布尔操作符被应用在标记列表上以便检索相关的信息。
信息检索任务的准确度是依据精确率和召回率来度量的。
假定一个给定的信息检索系统执行一次查询时返回X个文档。但是需要返回的实际或黄金文档集个数是Y。
召回率可以定义为信息检索系统所查找到的部分黄金文档数。它也可以定义为真正类与真正类和假负类的并集之比。
Recall (R) = ( X ∩ Y ) / Y
精确率可以定义为信息检索系统检测到并且正确的部分文档数。
Precision (P) = ( X ∩ Y ) / X
F值可以定义为精确率和召回率的调合平均值。
F-Measure = 2 * ( X ∩ Y ) / ( X + Y )
8.1.1 停止词删除
在执行信息检索任务时,检测文档中的停止词并删除它们是至关重要的。
让我们来看看如下NLTK中的代码,其用于获取英文中可以被检测到的停止词集合。 ...
Get 精通Python自然语言处理 now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.