📜  IR系统中的查询类型

📅  最后修改于: 2021-08-27 18:10:16             🧑  作者: Mango

在索引过程中,许多关键字与文档集相关联,其中包含单词,短语,创建日期,作者姓名和文档类型。 IR系统使用它们来构建倒排索引,然后在搜索过程中进行查询。将用户制定的查询与索引关键字集进行比较。大多数IR系统还允许使用布尔值和其他运算符来构建复杂的查询。这些运算符的查询语言丰富了用户信息需求的表达能力。

信息检索(IR)系统根据用户查询从大量数据集中查找相关文档。用户向搜索引擎提交的查询可能是模棱两可的,简洁的,其含义可能会随时间而改变。 IR系统中的某些查询类型为–

1.关键字查询:

  • 最简单,最常见的查询。
  • 用户仅输入关键字组合即可检索文档。
  • 这些关键字通过逻辑AND运算符连接。
  • 所有检索模型都支持关键字查询。

2.布尔查询:

  • 某些IR系统允许结合关键字公式使用+,-,AND,OR,NOT,(),布尔运算符。
  • 由于文档满足或不满足此查询,因此不涉及排名。
  • 如果文档在逻辑上与文档中的完全匹配为真,则检索该文档以进行布尔查询。

3.阶段查询:

  • 当使用反向关键字索引表示文档以进行搜索时,文档中项目的相对顺序会丢失。
  • 为了执行精确的相位检索,这些相位以倒排索引编码或以不同方式实现。
  • 该查询由构成一个阶段的一系列单词组成。
  • 它通常用双引号引起来。

4.邻近查询:

  • 邻近度是指搜索,它说明一条记录中多个项目之间应该有多接近。
  • 最常用的邻近搜索选项是阶段搜索,要求词条的顺序正确。
  • 其他接近运算符可以指定术语之间的接近程度。有些会指定搜索词的顺序。
  • 搜索引擎使用各种运算符名称,例如NEAR,ADJ(相邻)或AFTER。
  • 但是,为复杂的接近运算符提供支持变得昂贵,因为它需要耗时的文档预处理,因此适合于较小的文档集合,而不是Web。

5.通配符查询:

  • 它支持正则表达式和基于模式匹配的文本搜索。
  • 检索模型不直接支持此查询类型。
  • 在IR系统中,可以实现某些种类的通配符搜索支持。示例:通常以结尾字符结尾的单词。

6.自然语言查询:

  • 仅有少数几种自然语言搜索引擎旨在了解以自然语言文本(通常是问题或叙述)形式编写的查询的结构和含义。
  • 系统尝试根据检索到的结果为这些查询制定答案。
  • 语义模型可以为这种查询类型提供支持。