信息检索(IR)—链接分析

1 超链接介绍

1.1 网页中的超链接

链接反应的是网页之间形成的“参考”、“引用”和推荐的关系。可以合理的假设,若一篇网页被较多的其他网页连接,则它相对被人关注,其内容应该是较为重要的或者较为有用的。因此,可以认为一个网页的“入度”(指向它的网页的个数)是衡量它重要程度的一种有意义的指标,同时,网页的“出度”对分析网上信息的状况也很有意义,因此可以使用这两个指标来衡量网页。

1.2 经典的链接分析

  1. 基于随机漫游的模型。如PageRank等等
  2. 基于Hub和Authority相互加强模型。如HITS及其变种

2 PageRank算法

2.1 基本思想

在PageRank中,只考虑网页之间的链接的数量,不考虑链接之间的重要性。对于网页p而言,其初始化的排序公式为:
R(p)=c∑q:q−>pR(q)NqR(p)=c∑_{q:q->p}\frac{R(q)}{N_q}R(p)=cq:q−>p∑​Nq​R(q)​

  1. R()表示网页的当前排序值。
  2. NqN_qNq​是网页q的链出总数。
  3. 网页q,将它权威性的值平均分给它指向的网页。
  4. c是常数。

我们举一个简单的例子来计算一下:这里我们取C=1。


对于网页B而言,其链入的网页为A,那么B的排序值为:
R(B)=R(A)2R(B)=\frac{R(A)}{2}R(B)=2R(A)​
同理可以计算出来:
R(C)=R(B)+0.5R(A)R(C)=R(B)+0.5R(A)R(C)=R(B)+0.5R(A)
R(A)+R(B)+R(C)=1R(A)+R(B)+R(C)=1R(A)+R(B)+R(C)=1
解的:
R(A)=R(C)=0.4,R(B)=0.2R(A)=R(C)=0.4,R(B)=0.2R(A)=R(C)=0.4,R(B)=0.2

进一步,我们举一个更为复杂的例子:


2.2 PageRank的迭代收敛

假设S为网页的集合:

  1. 初始化任意p∈S:R( p)=1∣S∣\frac{1}{|S|}∣S∣1​
  2. 对于每一个p∈S:
  3. R′(p)=∑q:q−>pR(q)Nq,c=1∑p∈SR′(p)R'(p)=∑_{q:q->p}\frac{R(q)}{N_q},c=\frac{1}{∑_{p∈S}R'(p)}R′(p)=q:q−>p∑​Nq​R(q)​,c=∑p∈S​R′(p)1​
  4. 所有的网页值进行归一化有:p∈S:R(p)=cR′(p)p∈S:R(p)=cR'(p)p∈S:R(p)=cR′(p)
  5. 迭代收敛之后,算法结束。

举个例子来说明一下:

2.3 排序沉没问题

在PageRank中,当网页之间的引用出现“环状”的时候,会出现排序值无法收敛的情况。如下图所示:

为了解决这个问题,我们使用随机冲浪模型来解决排序沉没的问题:

在随机冲浪模型中,在PageRank算法中,增加了用户浏览网页跳转出来的可能性(跳出环结构)。其具体的计算公式如下:

R(u)=c∑v∈BuR(V)Nv+cE(u)R(u)=c∑_{v∈B_u}\frac{R(V)}{N_v}+cE(u)R(u)=cv∈Bu​∑​Nv​R(V)​+cE(u)
其中E(u)是网页u的初始排序值,初始的排序值可以是均匀分布,也可以是个性化的关于网页的喜好程度的分布。

2.4 PageRank算法的局限性

PageRank算法中仅仅基于网页的链接数量,被越多网页指向的网页越权威。PageRank算法中对于向外的链接的权重贡献是平均的,忽略了链接之间的重要程度。

2.5 PageRank改进——HillTop

类似于PageRank的思想,HillTop算法也是通过网页被链接的数量和质量来确定搜索结果的排序权重。HillTop认为单纯计算具有相同主题的相关文档链接对于搜索者的价值会更大。举个例子来说,如果网站是介绍“服装”的,有10个链接都是从“服装”的相关网站链接过来的,那么这十个链接比另外10个从“电器”相关网站链接过来的贡献要大。

3 HITS算法

3.1 基本思想

对于每一个网页而言,其拥有两个属性,Hub和Authority,Hub表明了贡献度,Authority表明了链接数量的权威程度,按照此进行排序。

网页的权威性:Authority

权威性是公认的提供重要程度,可信度以及有用信息的页面记录。链入数(指向一个网页的链接数)是权威性的一个简单度量。

网页的重要性:Hub

Hub网页是提供指向权威网页链接集合的WEB网页。Hub网页本身可能并不重要,可能没有几个网页指向它,但是Hub网页的确提供了指向就某个主题而言最为重要的站点的链接集合,举一个例子来说,比如一个课程主页上的推荐参考文献的列表。

将Hub网页和Authority网页进行合并,可以组成一个双向图:

3.2 构造子图

  1. 对一个特定的Q,从标准的搜索引擎返回文档的集合作为根集R。
  2. 对于R初始化S
  3. 将指向R中的任意网页所指的网页加入到S中。
  4. 将所有被R中网页所指的网页加入到S中。


3.4 HITS算法描述

  1. 将查询q提交给传统的基于关键字匹配的搜索引擎
  2. 搜索引擎返回很多的网页,从中提取出前n个网页作为根集。
  3. 通过向R中加入被R引用的网页和引用R的网页,将R扩展成一个更大的集合S。
  4. 采用迭代的算法计算A/H的值,最终按照A进行排序。

其中,迭代算法的描述如下:

假设a(i)和h(i)a(i)和h(i)a(i)和h(i)表示网页节点的权威度和中心度,将所有的节点的权威度和中心度都初始化为1。更新规则如下:

权威网页被中心网页所指:
ai=∑q:q−>ihqa_i=∑_{q:q->i}h_qai​=q:q−>i∑​hq​
中心性网页指向许多好的权威网页:
hi=∑i:i−>qaqh_i=∑_{i:i->q}a_qhi​=i:i−>q∑​aq​

举个例子来说:

综上所述:

1、 给定网页P,令R(根集)中t个网页指向P。

2、从R中获得基本集S。

3、在S上运行HITS算法。

4、返回S中最好的权威网页作为P的最相似的网页。

3.5 HITS算法的局限性

  1. 计算效率比较低,需要根据查询实时计算。
  2. 主题漂移问题,基本集中如果存在和查询主题无关但是相互连接比较多的页面的时候,会导致最终的排序结果和查询主题发生偏移。
  3. 容易被作弊者操纵结果,作弊者可以构建好的Hub页面,并令其指向作弊网页,提升作弊网页的Authority。
  4. 结构不稳定,针对已有的查询,如果向基本集中添加或删除个别网页或改变少数链接,则HITS算法产生的排序结果会有很大差异。

4 总结:PageRank VS HITS

  1. HITS算法的计算对象数量比较少,只需要计算扩展集合内网页之间的链接关系,而PageRank是全局算法,对所有的互联网页面节点进行处理。
  2. 从两者的计算效率和处理对象集合大小来比较,PageRank更合适部署在服务器端,而HITS算法更适合部署在客户端。
  3. HITS存在主题泛化问题,所有更适合处理具体化的用户查询,而PageRank在处理宽泛的用户查询的时候更具有优势。
  4. HITS算法在计算时,对于每个页面需要计算两个分值,而PageRank只需计算一个分值即可;在搜索引擎领域,更重视HITS算法计算出的Authority权值,但是在很多应用HITS算法的其它领域,Hub分值也有很重要的作用。
  5. 从链接反作弊的角度来说,PageRank从机制上优于HITS算法,而HITS算法更易遭受链接作弊的影响。
  6. HITS算法结构不稳定,当对“扩充网页集合”内链接关系作出很小改变,则对最终排名有很大影响;而PageRank相对HITS而言表现稳定。

5 参考

  1. 哈工大——信息检索

信息检索(IR)—链接分析相关推荐

  1. 深圳大学信息检索:链接分析实验

    前言 我们在搜索引擎内输入一个查询,然后搜素引擎便会很快返回大量的网页结果.这些网页结果已经通过某种方式排好了序,每一页从上到下会显示若干条搜索结果,然后所有搜索结果会分为很多页.当然,我们平时使用搜 ...

  2. 【信息检索】链接分析

    (1). 阅读教材<Introduction to Information Retrieval>第464-470页21.2节中所描述的PageRank计算方法(通过power iterat ...

  3. 信息检索(IR)—排序学习技术

    信息检索(IR)-排序学习技术 1 引入 回顾搜索引擎的发展历史,其发展的过程如下图所示: 在之前的文章中,我们介绍了基于链接分析的搜索引擎,下面我们来介绍基于排序学习的搜索引擎中的排序学习技术. 1 ...

  4. 信息检索(IR)的评价指标介绍

    信息检索(IR)的评价指标介绍 一.准确率.召回率和F1 IR领域两个最基本的指标召回率(Recall Rate)和准确率(Precision Rate),召回率也叫查全率,准确率也叫查准率. 1.召 ...

  5. 链接分析算法系列-机器学习排序

    这个系列的文章:原文 一:链接分析算法之:HITS算法: HITS(HITS(Hyperlink - Induced Topic Search) ) 算法是由康奈尔大学( Cornell Univer ...

  6. AI框架中图层IR的分析

    摘要:本文重点分析一下AI框架对IR有什么特殊的需求.业界有什么样的方案以及MindSpore的一些思考. 本文分享自华为云社区<MindSpore技术专栏 | AI框架中图层IR的分析> ...

  7. MindSpore技术专栏 | AI框架中图层IR的分析

    本文是MindSpore首席架构师金雪峰的知乎专栏『AI框架分析』的第二篇,首先向大家介绍下IR是什么? IR(Intermediate Representation即中间表示)是程序编译过程中,源代 ...

  8. ir指令、立即数的作用_AI框架中图层IR的分析

    AI框架图层IR的分析 前段时间一直忙于HC大会和MindSpore1.0的版本准备,国庆期间终于有点时间来交作业了,本文是AI框架分析专栏的第二篇,总体目录参见: AI框架的演进趋势和MindSpo ...

  9. 信息检索(IR)—信息检索模型(一)

    信息检索(IR)-信息检索模型(一) 1. 信息检索模型的概念和分类 1.1 信息检索模型的概念 信息检索模型是一个四元组 [ D , Q , F , R ( q i , d j ) ] [D,Q,F ...

最新文章

  1. Ant Design 入门-参照官方文档使用组件
  2. PhpMyAdmin导入数据库大小限制?
  3. Android监听后台状态,退出即杀死并显示退出提示框
  4. 计算机网络面试题整理
  5. layui数据表格循环数据给特殊行变颜色遇到的bug
  6. checkbox全选和反选功能
  7. ARP检测的技术手段和作用详述
  8. 在线播放器 在网页中插入MediaPlayer 兼容IE和FF的代码调试
  9. 【不用拔插U盘也可以继续使用】
  10. classdefnotfound本地不报错_四种解决Nginx出现403 forbidden 报错的方法
  11. 计算机python考试真题及答案新课标_CCF计算机职业资格认证考题答案详解(Python)...
  12. Connect Four四子棋c++程序 - 显示窗口(0)
  13. Chapter 11 应用系统负载分析及磁盘容量预测
  14. 使用JAVA Apache POI对图片进行裁剪展示
  15. AG7110/AG7111与AG7210方案设计选型方法|AG7110与AG7210设计要求和设计方法|HDMI视频切换器方法全解
  16. frame 和 bounds的区别
  17. 微信小程序云开发上传word文档到云存储器
  18. 怎么清理IE浏览器缓存
  19. VS2008 下编译 live555
  20. Windows7(64位)环境下安装openssl详细步骤+图解

热门文章

  1. win32应用程序_驱动人生网卡版提示不是有效的应用程序,为什么和怎么办
  2. 监控在服务器中的作用和功能,视频安防监控服务器能实现哪些功能以及解决哪些问题呢...
  3. BUUCTF Reverse/Ultimate Minesweeper
  4. 【sqlilabs】遗留问题
  5. OCR(光学字符识别)技术简介
  6. Gitlab CI/CD Sonar 集成简版
  7. 植发搞笑图片_搞笑GIF段子:植发三天了,越来越粗壮了!!
  8. Oracle EBS 取消订单行时提示 Error:WSH_NO_DATA_FOUND
  9. 中国农超对接模式产业竞争动态格局与建设经营分析报告2022-2028年
  10. echarts中国地图显示,涟漪效果vue版本