《信息检索导论》第七章总结
一、打分排序的特性
其实对于打分排序来说,我们最终只需要确定文档的相对顺序即可,因此我们可以简化打分的算法,只需要保持相对顺序不变即可;
二、快速排序及打分方法
我们前面的打分排序方法都需要计算查询及每篇文档的余弦相似度,然后需要取出打分最高的前K篇文档,这样做的复杂度是很高的;其实如果有一个算法能够近似求出前K篇文档但是复杂度少很多(不需要计算所有文档的得分),则我们通常会采用后一种算法;
通用方法:预先找到文档子集A(远小于初始文档集),包含了大多数的候选文档,并在A中计算得分最高的前K篇文档;以下方法都是基于这个规则计算的;
1.索引去除技术
(1)只考虑term的idf超过阈值的posting;因为低idf的term通常是stop words,posting非常长,所以不计算这些将使复杂度大大降低,因此不必考虑;
这里会出现超过阈值的doc没超过K篇,则需要使用层次型索引解决;
层次型索引:将倒排记录表进行分层,比如tf超过20的在第一层,tf超过10的在第二层,当需要查找前K篇文档时,只需要先在第一层查找,如果没取够K篇,则到第二层查找;
因此层次型索引是解决可能返回文档少于K篇的方法;
(2)只考虑包含多个查询词项的文档;
2.胜利表法
胜利表(champion list):对于词项t,预先取出posting的tf值最高的r篇文档,此序列称为胜利表;
给定一个查询Q,我们只需要求Q中的每个词项的胜利表的并集,此并集就是通用方法所说的文档子集A,并在A中计算余弦相似度;
3.静态得分排序法Static quality Score
每篇文档都有一个与查询无关的静态得分g(d),倒排索引中的posting按照g(d)进行降序排列;
而最后的得分是Score(q,d)=g(d)+v(q)v(d);
在第二十一章所说的PageRank是一个静态质量得分,是一个基于网页链接分析的打分;
4.分层搜索排序
对于词项t,维持两个表:高端表(tf值最高的m篇文档)和低端表(其余文档),都以g(d)排序;
取出打分最高的K篇文档方法:先计算高端表的得分,如果已经在高端表已经能够取出K篇得分最高的文档,则结束;否则,其余的在低端表中取;
5.cluster pruning
leader:在N篇文档中找到(根号N)篇文档作为leader;
follower:每个leader都有(根号N)个follower,表示与leader距离较近;
查询方法:给定查询Q,先与每个leader计算余弦相似度,找到最近的leader,文档子集A为此leader+leader对应的follower;
三、其他考虑因素
1.查询词项邻近性
我们希望查询词在文档中都靠的很近,这样才能够使得文档和查询更相关;
最小窗口大小:the quality of mercy is not stained ,如果查询为:stained quality;则最小窗口大小为6(quality of mercy is not strained);
软合取:文档不必包含全部的查询词项,只需要包含大部分的查询词项即可;
因此有可能需要将邻近性也加入权重中;
四、搜索引擎组成
indexer用于生成各式各样的索引,比如参数化索引、域索引、K-gram索引、分层索引;
向量空间模型和布尔检索模型有所不同,布尔模型只考虑词项在文档中是否存在,而不考虑出现了几次,也没有权重;
转载于:https://www.cnblogs.com/xiazdong/archive/2012/01/07/3058353.html
《信息检索导论》第七章总结相关推荐
- 计算机导论第七章,计算机导论精品PPT-第七章计算机图形学剖析.ppt
计算机导论精品PPT-第七章计算机图形学剖析 (1)计算机 在虚拟现实系统中,计算机是系统的心脏,被称之为虚拟世界的发动机.负责虚拟世界的生成.人与虚拟世界的自然交互等功能的实现. (2)输入输出设备 ...
- 【算法基础】数据结构导论第七章-排序.pptx
上课的课件分享,适合教学用. 文末提供下载 已发布: 数据结构导论第一章-绪论 数据结构导论第二章-线性表 数据结构导论第三章-栈.队列和数组 数据结构导论第四章-树 数据结构导论第五章-图 数据结构 ...
- [归纳]强化学习导论 - 第七章:n-step自举(Bootstrapping)
文章目录 1.本章内容概要 2.n-step TD预测 3.n-step Sarsa 4.n-step off-policy学习 5.*带控制变量的per-decision方法 6.无重要性采样的of ...
- 网络存储导论第七章:重要系统灾备方法
7.3.1 灾难备份需求的衡量指标 对于大多数企业而言,提到灾难备份,最直接的反映就是增加预算,购买更多的主机,存储设备以及相应软件.虽然这是实施灾难备份项目的一个必要步骤,但是,从"灾备方 ...
- 中国大学MOOC 人工智能导论第七章测试
1 单选(2.5分) 下列关于有监督学习的说法不正确的是 得分/总分 A. 支持向量机模型中距离平面最近的几个样本对平面的选择影响最大 B. 决策树算法中最能将样本数据显著分开的属性应该在决策早期就使 ...
- 信息系统安全导论第七章信息安全工程与信息安全审计
一.信息安全工程简介 信息安全不单单是技术问题,而是策略.管理和技术的有机结合,是一项复杂的系统工程. 1.1 信息工程建设中的问题 重功能,轻安全: 先建设,后安全: 头痛医头,脚痛医脚: 简单的安 ...
- 算法导论第七章习题答案(第三版) Introduction to Algorithm
Exercises 7.1-1.略. 7.1-2. 返回的q值等于r,当数组中所有元素都相同时,可以将等于主元的值轮流放到两个集合中. 7.1-3 for循环正好是Θ(n)的复杂度,所以PARTITI ...
- 《计算传播学导论》读书笔记:第七章 数据新闻
目录 第七章 数据新闻 第一节 产生背景 第二节 理论源流 一.计算驱动的新闻报道 二.可视化驱动的新闻报道 三.制作流程 第三节 实战练习 一.维基解密阿富汗战争日志 二.奥运会数据分析和EChar ...
- 软件工程导论第三章复习总结附思维导图
软件工程导论第三章复习总结附思维导图 概述 准确回答"系统必须做什么" 必须理解并描述问题的信息域,根据这条准则应该建立数据模型 必须定义软件应该完成的功能,这条准则要求建立功能模 ...
- 第七章租赁法律与合同
第七章租赁法律与合同 一.租赁法律 租赁法是调整租赁关系的法律规范的总称 完善的租赁立法包括四个方面: (1)合同与财产法(民事法) (2)会计.税务法规 (3)租赁业促进法(或称投资促进法) (4) ...
最新文章
- 以下属于python标准库的选项是-Python 标准库一览(Python进阶学习)
- java中的排序算法——归并排序
- linux ubuntu桌面进程,如何加快你的Ubuntu桌面性能
- MySQL DATEDIFF(d1,d2)	计算日期 d1-d2 之间相隔的天数
- 系统相机裁剪比例_拍照时图片比例怎么选?比构图还要提前一步的摄影攻略要做好...
- 二维数组和指针(包含交换二维数组行列)
- 五年引用量最高的10大AI论文:Adam第一,Transformer上榜,竟然没有ResNet?
- Oracle IO问题解析(一)
- 带圈圈的数字1~50,求50以上,不要word的
- 一阶广义差分模型_实验五 自相关性 -
- 谷歌浏览器播放视频只有声音没有画面(或者只有画面没有声音)解决方法
- 上海2018计算机中级职称,2018中级职称评定申报要求
- matlab 矩阵转数组,matlab数组与矩阵
- 百度贴吧恶意代码分析
- 深度测评:RAKsmart美国站群服务器怎么样
- Android解析域名获取IP
- 开源100天,OneFlow送上“百天大礼包”:深度学习框架如何进行性能优化?
- 泛微金融行业方案合集,推动金融行业数字化转型
- 数据压缩作业:AVI格式文件分析
- 短信发送平台-阿里大于
热门文章
- vue用阿里云oss上传图片使用分片上传只能上传100kb以内的解决办法
- 《无线网络:理解和应对互联网环境下网络互连所带来的挑战》——第2章 无线生态系统 2.1无线标准化过程...
- The user specified as a definer (#39;root#39;@#39;%#39;) does not exist
- 如何对web.config进行加密和解密
- 2018-2019-1 《信息安全系统设计基础》教学进程
- Android中实时视频传输(摄像头实时视频传输)解决方案二
- 强大的独立日期选择器(date picker)插件 - Kalendae
- 白话设计模式——Abstract Factory
- scrapy框架异常--no more duplicates will be shown (see DUPEFILTER_DEBUG to show all duplicates)
- Django REST framework 序列化