一、打分排序的特性

其实对于打分排序来说,我们最终只需要确定文档的相对顺序即可,因此我们可以简化打分的算法,只需要保持相对顺序不变即可;

二、快速排序及打分方法

我们前面的打分排序方法都需要计算查询及每篇文档的余弦相似度,然后需要取出打分最高的前K篇文档,这样做的复杂度是很高的;其实如果有一个算法能够近似求出前K篇文档但是复杂度少很多(不需要计算所有文档的得分),则我们通常会采用后一种算法;

通用方法:预先找到文档子集A(远小于初始文档集),包含了大多数的候选文档,并在A中计算得分最高的前K篇文档;以下方法都是基于这个规则计算的;

1.索引去除技术

(1)只考虑term的idf超过阈值的posting;因为低idf的term通常是stop words,posting非常长,所以不计算这些将使复杂度大大降低,因此不必考虑;

这里会出现超过阈值的doc没超过K篇,则需要使用层次型索引解决;

层次型索引:将倒排记录表进行分层,比如tf超过20的在第一层,tf超过10的在第二层,当需要查找前K篇文档时,只需要先在第一层查找,如果没取够K篇,则到第二层查找;

因此层次型索引是解决可能返回文档少于K篇的方法;

(2)只考虑包含多个查询词项的文档;

2.胜利表法

胜利表(champion list):对于词项t,预先取出posting的tf值最高的r篇文档,此序列称为胜利表;

给定一个查询Q,我们只需要求Q中的每个词项的胜利表的并集,此并集就是通用方法所说的文档子集A,并在A中计算余弦相似度;

3.静态得分排序法Static quality Score

每篇文档都有一个与查询无关的静态得分g(d),倒排索引中的posting按照g(d)进行降序排列;

而最后的得分是Score(q,d)=g(d)+v(q)v(d);

在第二十一章所说的PageRank是一个静态质量得分,是一个基于网页链接分析的打分;

4.分层搜索排序

对于词项t,维持两个表:高端表(tf值最高的m篇文档)和低端表(其余文档),都以g(d)排序;

取出打分最高的K篇文档方法:先计算高端表的得分,如果已经在高端表已经能够取出K篇得分最高的文档,则结束;否则,其余的在低端表中取;

5.cluster pruning

leader:在N篇文档中找到(根号N)篇文档作为leader;

follower:每个leader都有(根号N)个follower,表示与leader距离较近;

查询方法:给定查询Q,先与每个leader计算余弦相似度,找到最近的leader,文档子集A为此leader+leader对应的follower;

三、其他考虑因素

1.查询词项邻近性

我们希望查询词在文档中都靠的很近,这样才能够使得文档和查询更相关;

最小窗口大小:the quality of mercy is not stained ,如果查询为:stained quality;则最小窗口大小为6(quality of mercy is not strained);

软合取:文档不必包含全部的查询词项,只需要包含大部分的查询词项即可;

因此有可能需要将邻近性也加入权重中;

四、搜索引擎组成

indexer用于生成各式各样的索引,比如参数化索引、域索引、K-gram索引、分层索引;

向量空间模型和布尔检索模型有所不同,布尔模型只考虑词项在文档中是否存在,而不考虑出现了几次,也没有权重;

转载于:https://www.cnblogs.com/xiazdong/archive/2012/01/07/3058353.html

《信息检索导论》第七章总结相关推荐

  1. 计算机导论第七章,计算机导论精品PPT-第七章计算机图形学剖析.ppt

    计算机导论精品PPT-第七章计算机图形学剖析 (1)计算机 在虚拟现实系统中,计算机是系统的心脏,被称之为虚拟世界的发动机.负责虚拟世界的生成.人与虚拟世界的自然交互等功能的实现. (2)输入输出设备 ...

  2. 【算法基础】数据结构导论第七章-排序.pptx

    上课的课件分享,适合教学用. 文末提供下载 已发布: 数据结构导论第一章-绪论 数据结构导论第二章-线性表 数据结构导论第三章-栈.队列和数组 数据结构导论第四章-树 数据结构导论第五章-图 数据结构 ...

  3. [归纳]强化学习导论 - 第七章:n-step自举(Bootstrapping)

    文章目录 1.本章内容概要 2.n-step TD预测 3.n-step Sarsa 4.n-step off-policy学习 5.*带控制变量的per-decision方法 6.无重要性采样的of ...

  4. 网络存储导论第七章:重要系统灾备方法

    7.3.1 灾难备份需求的衡量指标 对于大多数企业而言,提到灾难备份,最直接的反映就是增加预算,购买更多的主机,存储设备以及相应软件.虽然这是实施灾难备份项目的一个必要步骤,但是,从"灾备方 ...

  5. 中国大学MOOC 人工智能导论第七章测试

    1 单选(2.5分) 下列关于有监督学习的说法不正确的是 得分/总分 A. 支持向量机模型中距离平面最近的几个样本对平面的选择影响最大 B. 决策树算法中最能将样本数据显著分开的属性应该在决策早期就使 ...

  6. 信息系统安全导论第七章信息安全工程与信息安全审计

    一.信息安全工程简介 信息安全不单单是技术问题,而是策略.管理和技术的有机结合,是一项复杂的系统工程. 1.1 信息工程建设中的问题 重功能,轻安全: 先建设,后安全: 头痛医头,脚痛医脚: 简单的安 ...

  7. 算法导论第七章习题答案(第三版) Introduction to Algorithm

    Exercises 7.1-1.略. 7.1-2. 返回的q值等于r,当数组中所有元素都相同时,可以将等于主元的值轮流放到两个集合中. 7.1-3 for循环正好是Θ(n)的复杂度,所以PARTITI ...

  8. 《计算传播学导论》读书笔记:第七章 数据新闻

    目录 第七章 数据新闻 第一节 产生背景 第二节 理论源流 一.计算驱动的新闻报道 二.可视化驱动的新闻报道 三.制作流程 第三节 实战练习 一.维基解密阿富汗战争日志 二.奥运会数据分析和EChar ...

  9. 软件工程导论第三章复习总结附思维导图

    软件工程导论第三章复习总结附思维导图 概述 准确回答"系统必须做什么" 必须理解并描述问题的信息域,根据这条准则应该建立数据模型 必须定义软件应该完成的功能,这条准则要求建立功能模 ...

  10. 第七章租赁法律与合同

    第七章租赁法律与合同 一.租赁法律 租赁法是调整租赁关系的法律规范的总称 完善的租赁立法包括四个方面: (1)合同与财产法(民事法) (2)会计.税务法规 (3)租赁业促进法(或称投资促进法) (4) ...

最新文章

  1. 以下属于python标准库的选项是-Python 标准库一览(Python进阶学习)
  2. java中的排序算法——归并排序
  3. linux ubuntu桌面进程,如何加快你的Ubuntu桌面性能
  4. MySQL DATEDIFF(d1,d2) 计算日期 d1-d2 之间相隔的天数
  5. 系统相机裁剪比例_拍照时图片比例怎么选?比构图还要提前一步的摄影攻略要做好...
  6. 二维数组和指针(包含交换二维数组行列)
  7. 五年引用量最高的10大AI论文:Adam第一,Transformer上榜,竟然没有ResNet?
  8. Oracle IO问题解析(一)
  9. 带圈圈的数字1~50,求50以上,不要word的
  10. 一阶广义差分模型_实验五 自相关性 -
  11. 谷歌浏览器播放视频只有声音没有画面(或者只有画面没有声音)解决方法
  12. 上海2018计算机中级职称,2018中级职称评定申报要求
  13. matlab 矩阵转数组,matlab数组与矩阵
  14. 百度贴吧恶意代码分析
  15. 深度测评:RAKsmart美国站群服务器怎么样
  16. Android解析域名获取IP
  17. 开源100天,OneFlow送上“百天大礼包”:深度学习框架如何进行性能优化?
  18. 泛微金融行业方案合集,推动金融行业数字化转型
  19. 数据压缩作业:AVI格式文件分析
  20. 短信发送平台-阿里大于

热门文章

  1. vue用阿里云oss上传图片使用分片上传只能上传100kb以内的解决办法
  2. 《无线网络:理解和应对互联网环境下网络互连所带来的挑战》——第2章 无线生态系统 2.1无线标准化过程...
  3. The user specified as a definer (#39;root#39;@#39;%#39;) does not exist
  4. 如何对web.config进行加密和解密
  5. 2018-2019-1 《信息安全系统设计基础》教学进程
  6. Android中实时视频传输(摄像头实时视频传输)解决方案二
  7. 强大的独立日期选择器(date picker)插件 - Kalendae
  8. 白话设计模式——Abstract Factory
  9. scrapy框架异常--no more duplicates will be shown (see DUPEFILTER_DEBUG to show all duplicates)
  10. Django REST framework 序列化