搜索引擎中多文档列表交集的计算

在实际查询中,有一个或多个查询词。有时一个查询词会因为分词而分解成多个词,所以可能包含以下三种情况。

1单字查询:例如“中国”。
2。查询多个词:如查询“中国搜索引擎”,搜索引擎默认查询词,中间空格代表用户的主动分词,即视为多词查询。
3。查询一个词:它实际上是一个多词查询,因为它是分段的。例如,查询“into search engine”将分解为“into”search engine,本质上相当于第二种类型。
对于第一种情况,需要从反向索引表中检索与关键字对应的文档列表。由于检索结果是一个单序时簿,不需要计算多个序时簿的交集。






当然,它也有以下主要缺点:
1。计算是懒惰的,而且很难并发。计算是串行完成的,强制并发将导致大量的空间浪费。
2。为了保存临时交叉口的结果,需要在本地打开额外的空间。总额外空间是第一次获得的相交长度。
最后,这种方法不可避免地存在这样的问题。也就是说,在最后一次合并中,必须找到最短文档列表和最长文档列表的交集。如前所述,在进行最后一次合并时,doclistl_2_3是三个文档列表的交集。它必须小于或等于最短的文档列表doclistl,而doclisl4是最大的文档列表。因此,可以找到具有最小长度的文档列表和具有最大长度的文档列表之间的交集。特别是当查询词中包含一个低频词(如“全文检索”)、一个高频词(如“中国”)和多个中频词时,最终的结果必然会导致查找最小文档列表和最大文档列表的情况,给计算带来很大麻烦。
序时簿交集的计算方法很多,各有优缺点。每一种方法也包含了很多优化手段,深圳SEO不再在这里推出。接下来进入检索计算的最后一个计算步骤:检索结果排序。

搜索引擎的多文档列表求交计算

版权声明:本文由守候(www.rc58.com.cn)发表于 2020年07月02日 ,本文共:704字
转载请注明,本文转载自守候网络工作室:搜索引擎中多文档列表交集的计算

在线留言

说点什么吧
  • 全部评论(0
    还没有评论,快来抢沙发吧!