一个完整的搜索系统 - God bless you - 博客园

一个完整的搜索系统 - God bless you - 博客园

一个完整的搜索系统

一个完整的搜索系统

层次型倒排索引

基于前面非精确top K检索中的胜者表的思路,实际搜索系统可以建立多层索引结构。

基本思路:建立多层索引,每层对应索引词项的重要性

查询处理过程中,从最高层索引开始。如果最高层索引已经返回至少k (比如, k = 100)个结果,那么停止处理并将结果返回给用户。如果结果 < k 篇文档,那么从下一层继续处理,直至索引用完或者返回至少k 个结果为止。

例子:两层的系统
第1层: 所有标题的索引
第2层: 文档剩余部分的索引
标题中包含查询词的页面相对于正文包含查询词的页面而言,排名更应该靠前

注:很多人认为,Google (2000/01)搜索质量显著高于其他竞争者的一个主要原因是使用了多层次索引。(当然还有PageRank、锚文本以及邻近限制条件的使用)。

查询词项的邻近性限制

对于检索中的查询,特别是Web上的自由文本查询来说,用户往往希望返回的文档中与大部分或者全部查询词项之间的距离比较近,因为这表明返回文档中具有聚焦用户查询意图的文本。

考虑一个由两个或者多个查询词项构成的查询t1, t2, . . . , tk。令文档d中包含所有查询词项的最小窗口大小为ω,其取值为窗口内词的个数。例如,假设某篇文档仅仅包含一个句子The quality of mercy is not strained,那么查询strained mercy 在此文档中的最小窗口大小是4。直观上讲,ω的值越小,文档d和查询匹配程度更高。如果文档中不包含所有的查询词项,那么此时可以将ω设成一个非常大的数字。在计算时,还可以考虑各种可能的策略变化,比如在以单词个数来计算窗口宽度ω时,可以不考虑停用词的数目。

这种基于邻近性(proximity)加权的评分函数已经和纯余弦相似度计算方法有所不同,而更接近于目前包括Google在内的很多搜索引擎所提供并明显在使用的“软合取”(soft conjunctive)语义。

注:所谓“ 软合取” 指的是在对一个包含多个词项的查询进行检索时,检索中的文档中只要出现大部分查询词项即可,并不要求出现全部查询词项。

查询分析器

给定rising interest rates 之类的查询,如何处理?更一般地,给定我们前面介绍过的各种能够影响文档得分的因素,如何对这些因素进行组合?

上述问题的答案当然依赖于用户数量、查询分布及文档集本身。通常情况下,会有一个查询分析器(query parser)将用户输入的关键词转换成带操作符的查询,该查询能够基于底层的索引结构进行处理。有时,这种处理过程可能需要基于底层索引结果对多个查询进行处理,比如,查询分析器可能会产生如下的一系列查询。

1. 将用户输入的查询字符串看成一个短语查询。利用向量空间模型求解,此时输入查询向量是以rising interest rates 为基的1 维向量。
2. 如果包含短语rising interest rates 的文档数目少于10 篇,那么会将原始查询看成rising interest 和interest rates 两个查询短语,同样通过向量空间方法来计算。
3. 如果结果仍然少于10 个,那么重新利用向量空间模型求解,这时候认为3 个查询词项之间是互相独立的。

上面的每一步在调用的情况下都会产生一系列带得分的文档列表结果,而每个得分必须融合向量空间计算、静态得分、邻近度加权或其他可能的因素,特别地,一篇文档可能在上述的多个步骤结果列表中同时出现。这时就要求有一个综合得分函数能够融合不同来源的得分。

综上一个完整的搜索系统示意图

posted on 2012-09-14 13:50 lexus 阅读(...) 评论(...) 编辑 收藏

转载于:https://www.cnblogs.com/lexus/archive/2012/09/14/2684824.html

一个完整的搜索系统 - God bless you - 博客园相关推荐

  1. 一个完整的crm系统都应该具备哪些功能?

    "CRM系统是一道开放性题目,它没有固定答案." 这句话一定要牢牢记住,不仅是CRM系统,它适用于所有系统. 企业想要弄清楚一个完整的CRM系统应该具备哪些功能,首先得清楚CRM系 ...

  2. 即时消息:一个完整的IM系统是怎样的

    什么是IM IM即"即时(实时)消息技术",是互联网实时互动场景的底层架构:包括聊天.直播.在线客服.物联网等这些业务领域在内,所有需要"实时互动"" ...

  3. 打造一个专注阅读的博客园主题

    文章目录 效果展示 基本设置 代码高亮 页面定制 CSS 代码 博客侧边栏公告 页首 HTML代码 页脚 HTML 代码 页脚 HTML 代码中标签介绍(一定要看完!) silence.min.js ...

  4. linux编写一个博客脚本,Linux 脚本编写基础 - 凌度 - 博客园.pdf

    Linux 脚本编写基础 - 凌度 - 博客园 Linux 脚本编写基础 1. Linux 脚本编写基础 1.1 语法基本介绍 1.1.1 开头 程序必须以下面的行开始 (必须放在文件的第一行): # ...

  5. Linux系统内存管理之伙伴系统分析 - 旭东的博客 - 博客园

    Linux系统内存管理之伙伴系统分析 - 旭东的博客 - 博客园 Linux系统内存管理之伙伴系统分析 今天去面试,一位面试官提到了内存管理的伙伴系统,当时就懵了,因为根本就没有听说过.晚上回来在实验 ...

  6. 关于幂律分布的一个笔记_哈克_新浪博客

    关于幂律分布的一个笔记_哈克_新浪博客 关于幂律分布的一个笔记     (2011-03-02 18:12:27)     转载▼     标签:     幂律     二八法则     杂谈     ...

  7. 给博客园加一个会动的小人-spig.js

    给博客园加一个会动的小人-spig.js 效果大概是这样,感觉十分可爱qvq 那么怎么添加呢? 首先需要开通js/html权限. 然后在页脚html代码中加入以下代码 <script src=& ...

  8. 分享一个有趣的学习方法,欢迎一起探讨如何提高学习兴趣作者:1-2-3 来源:博客园 发布时间:2009-03-09 16:20 阅读:2820 次 原文链接 [收藏]

    分享一个有趣的学习方法,欢迎一起探讨如何提高学习兴趣 作者:1-2-3  来源:博客园  发布时间:2009-03-09 16:20  阅读:2820 次  原文链接   [收藏]   有些人似乎天生 ...

  9. python博客项目评论_Python 爬虫入门——小项目实战(自动私信博客园某篇博客下的评论人,随机发送一条笑话,完整代码在博文最后)...

    之前写的都是针对爬虫过程中遇到问题的解决方案,没怎么涉及到实际案例.这次,就以博客园为主题,写一个自动私信博客下的评论人员(在本篇留下的评论的同学也会被自动私信,如果不想被私信,同时又有问题,请私信我 ...

最新文章

  1. SQL Server 2014 内存优化表(1)实现内存优化表
  2. Hive数据导入——数据存储在Hadoop分布式文件系统中,往Hive表里面导入数据只是简单的将数据移动到表所在的目录中!...
  3. Service和Thread的关系
  4. MIT自然语言处理第二讲:单词计数(第三、四部分)
  5. redis序列化_scrapy_redis中序列化源码及其在程序设计中的应用
  6. 盘点计算机世界那些经典谣言
  7. android:contentDescription
  8. 我的模型有多快?——深度学习网络模型的运算复杂度、空间占用和内存访问情况计算...
  9. 记录MySQL中JSON_EXTRACT JSON_UNQUOTE函数的使用方式
  10. arcmap10.7打开tif文件一片空白 | 解决方法
  11. python神经网络编程pdf百度云下载-Python神经网络编程高清版.pdf
  12. This system is not registered with an entitlement server.
  13. C#与C/C++的交互
  14. latex输入单双引号
  15. node-red安装
  16. [1]无线通信--介绍基本概念
  17. 获取某一帧、某一秒、某几秒画面
  18. Python全栈面试题
  19. linux命令cp建立硬链接,Linux命令ln、cp、硬链接和软链接
  20. Spine3.8.75学习版打开不同版本骨架.skel的方法

热门文章

  1. JAVA重复图片_〔批处理〕处理重复图片
  2. 361度与国棉联盟达成战略合作;开利宣布收购空调企业广东积微集团;大陆集团与地平线成立智能驾驶合资公司 | 美通企业周刊...
  3. JS原生事件如何绑定
  4. 无人机倾斜影像建模哪个软件好
  5. 云原生docker容器创建实操
  6. 室内导航--机器视觉、ROS、Goseek(三)ROS Noetic Ninjemys 准备
  7. 五分钟学会python函数_Python——带你五分钟了解函数式编程与闭包
  8. 力扣每日一题2022-05-04中等题:找出游戏的获胜者
  9. 图像压缩之基于神经网络压缩(BP)
  10. 证件照的要求是什么?