作者 | 上杉翔二

悠闲会 · 信息检索

整理 | NewBeeNLP

本篇文章继续整理 Graph in Rec&Search 这个系列的文章,以前博主整理过的系列可以见:

  • 万物皆可Graph | 当推荐系统遇上图神经网络

  • 万物皆可Graph | 当推荐系统遇上图神经网络(二)

  • 万物皆可Graph | 当推荐系统遇上图神经网络(三)

  • 万物皆可Graph | 当推荐系统遇上图神经网络(四)

这次更新最近SIGIR2021,博主自己刷过觉得还不错的几篇文章,分搜索和推荐两篇博文整理吧,这篇是关于检索的三篇文章。

GraphCM

  • A Graph-Enhanced Click Model for Web Search

  • https://dl.acm.org/doi/10.1145/3404835.3462895

图方法结合点击模型,不做过多科普。作者认为现有的点击模型无法应对

  1. 稀疏性。现有的模型通常会出现数据稀疏性问题,即对查询文档对缺乏有用的用户交互反馈。

  2. 冷启动。现有的模型在冷启动环境中易受到攻击。

因此从不同用户发布的不同会话(即会话间信息)的查询或文档或会话之间的交互中提取用户的行为模式具有丰富的潜力,可以同时解决以上问题。因此提出图增强点击模型(GraphCM),模型图如下:博主个人觉得具体的做法比较完善,GraphCM由attractiveness estimator和examination predictor组成。attractiveness estimator涉及到三个模块,query encoder, document encoder, 和neighbor interaction,即左边的三个小虚线框框。

  • query encoder。编码查询上下文,将每个查询视为一个顶点构图,利用Query  Homogeneous  GAT学习表示,然后GRU建模序列得到表示。

  • document encoder。编码文档上下文,document构图同query类似,用GAT学习完毕之后,还会拼接一些,文档ID d、垂直类型v、先前点击c,排序位置p,一起生成文档上下文表示。

  • neighbor interaction。进一步考虑查询和文档之间的交互,提出了一种显式合并文档高阶邻居信息的邻居交互方法,即采样同域内的节点,进一步丰富局部图的结构信息,可以缓解数据的稀疏性问题。

attractiveness estimator测量的是每个文档对用户的吸引力分数,而examination predictor旨在预测用户是否会根据她的会话上下文继续点击概率。即上图右侧的两个任务小框。最后可以看到模型通过一个组合层,结合吸引力分数和概率来进行用户点击预测。

FNPS

  • Group based Personalized Search by Integrating Search Behaviour and Friend Network

  • https://dl.acm.org/doi/abs/10.1145/3404835.3462918

这一篇的任务是个性化搜索。一般常见的个性化搜索在数据少时会合并一些相似用户,即有相似的搜索词。但当行为少时,这种相似用户的行为不一定可靠,因此引入朋友网络来共同建模,即相似的信息需求+多样的朋友关系。

作者提出模型FNPS的架构如上图,比较直观

  • 首先,利用朋友网络和用户的历史搜索行为,从两个角度形成朋友圈。即图中的relation-based circles(友谊伴随这共享的经验,因此拿到朋友关系来分组)和behavior-based circles(历史搜索行为可以在一定程度上反映用户的兴趣,所以利用行为来分组)。

  • 其次,利用图注意网络GAT对不同权重的朋友信息进行聚合。

  • 第三,将两种朋友圈的表征输入交叉注意层Cross-Attention,相互增强。

  • 最后,为了响应当前的查询意图,使用查询感知的注意力来突出相关的朋友圈。其中长短期Transformer建模历史记录得到动态的个人profile信息。

GRAPH4DIV

  • Modeling Intent Graph for Search Result Diversification

  • https://dl.acm.org/doi/10.1145/3404835.3462872

这一篇研究搜索多样性问题。搜索结果多样化旨在提供包含尽可能多意图的不同文档。一些常见的多样性检索方法博主在过往文章有过整理了,传送门:多样性检索[5]

一般都是使用逐个选最多样的某个item,但作者认为现有多样化的方法仍然存在的问题有:

  1. 多样性排序loss是唯一的。因此就不知道排错的结果是因为特征的组合问题导致,还是多样性的特征不够。同时只用初始化特征来计算新颖性也是不准确的,文档的内容是推导文档多样性信息的重要来源,应该被重点关注。

  2. 候选文档的多样性是通过其与所选文档的不同性来衡量的,而忽略了所选文档对查询的意图覆盖范围和候选文档之间的相似性

总体来说作者认为文档的内容和查询的意图是重要的两个衡量点。但会各自遇到两大困难:

  • 如何同时考虑内容和意图覆盖来计算文档相似度。文档的意图很重要,相似的内容一定也共享很多的意图。同时对于结果来说,返回文档中的意图越多则多样性越好,但用户意图通常隐藏在文档内容中。

  • 如何在文档选择过程中考虑查询和文档的复杂和动态关系。这里的动态博主个人理解是在一个一个挑选过程中,选择队列中对意图多样性的需求是不断变动的,因此候选文件的多样性不是独立的。

因此作者提出可以直接通过文档意图覆盖范围的相似性,而不是仅仅文档表示特征的相似性来建模,同时讨论复杂的意图关系。最终提出的方案GRAPH4DIV如下图所示:首先看一下ranking分数 的计算,如上图的右上角的地方:

402 Payment Required

其中当前查询 、文档集 和候选文档 。和 分别是相关性和多样性分数。然后这俩的计算分别为:相关性分数比较好计算,而多样性分数由于选择文档的动态性,因此计算会复杂一些为:

如图的其他部分都是在获得这里的多样性特征 。

具体的做法分为以下几步。

  • 文档关系图。为了充分利用文档内容的丰富信息,作者设计了一个文档关系分类器,其根据文档内容的内容来判断两个文档是否包含相同的意图。然后构建意图图,其中如果两个文档共享相同的意图,则它们是连接的。

  • 图卷积层。用GCN适应这个动态意图图来学习意图感知文档表示和上下文感知查询表示。动态的意思是当选择完分数最高的文档后,图的结果将会变化即Adjusted Graph,然后在用GCN学习表示。

  • 多样性特征。由query表示 ,文档表示 ,度表示 和全局图表示 组成。

一起交流

想和你一起学习进步!『NewBeeNLP』目前已经建立了多个不同方向交流群(机器学习 / 深度学习 / 自然语言处理 / 搜索推荐 / 图网络 / 面试交流 / 等),名额有限,赶紧添加下方微信加入一起讨论交流吧!(注意一定o要备注信息才能通过)

本文参考资料

[1]

图神经网络用于推荐系统问题(PinSage,EGES,SR-GNN): https://nakaizura.blog.csdn.net/article/details/106413118

[2]

图神经网络用于推荐系统问题(NGCF,LightGCN): https://nakaizura.blog.csdn.net/article/details/106970194

[3]

图神经网络用于推荐系统问题(IMP-GCN,LR-GCN): https://nakaizura.blog.csdn.net/article/details/114320157

[4]

图神经网络用于推荐系统问题(SURGE,GMCF,TASRec): https://nakaizura.blog.csdn.net/article/details/121549056

[5]

多样性检索: https://blog.csdn.net/qq_39388410/article/details/109706683

END -

我与NLP这七年

2022-02-12

向量检索模型落地:瓶颈及解法!

2022-02-11

Jeff Dean长文展望:机器学习领域的五大潜力趋势

2022-02-09

搜索推荐广告中的Position Bias:美团DPIN

2022-01-19

万物皆可Graph | 当信息检索遇上图神经网络相关推荐

  1. 万物皆可Graph | 当推荐系统遇上图神经网络(四)

    作者 | 上杉翔二 悠闲会 · 信息检索 整理 | NewBeeNLP 本篇文章继续整理这个系列Graph in Rec 的文章,以前博主整理过的系列可以见: 万物皆可Graph | 当推荐系统遇上图 ...

  2. 万物皆可Graph | 当推荐系统遇上图神经网络(三)

    NewBeeNLP原创出品 公众号专栏作者@上杉翔二 悠闲会 · 信息检索 本篇文章follow一些 Graph in Rec 的文章,以前博主整理过的系列可以见: 万物皆可Graph | 当推荐系统 ...

  3. 万物皆可Graph | 当推荐系统遇上图神经网络(二)

    NewBeeNLP原创出品 公众号专栏作者@上杉翔二 悠闲会 · 信息检索 前段时间,我们关注过图神经网络在推荐系统中的应用:万物皆可Graph | 当推荐系统遇上图神经网络.今天继续来看看这个方向, ...

  4. 【图神经网络】万物皆可Graph | 当推荐系统遇上图神经网络

    NewBeeNLP原创出品 公众号专栏作者@上杉翔二 悠闲会 · 信息检索 图神经网络可以说是现在AI领域的超级宠儿.针对推荐系统的稀疏性问题,图方法还真的很适合,主要原因有下: 推荐系统中存在很多的 ...

  5. 【赠书】当深度学习遇上图: 图神经网络的兴起!

    大家好,我是kaiyuan.周末愉快! 日常给关注支持『NewBeeNLP』的朋友们送几本书,这次赠书是图神经网络方面的.各大顶会随便一刷都有图网络的身影,我们之前也有分享过相关内容的技术文章 Gra ...

  6. DeepFake 新高度:一阶运动模型让“万物皆可动”

    2020-04-26 18:17 导语:万物皆可动 作者 | 蒋宝尚 编辑 | 丛 末 DeepFake一方面被骂作"AI毒瘤",另一方面在B站上大行其道.最近,这项技术又用在了在 ...

  7. quicklook不能预览office_万物皆可格!给空格键施加神奇魔法的神器软件—快速预览工具QuicklookPC软件...

    大家好,我是元力.今天给大家带来一款电脑端使用的超级神奇的软件.只需要选中文件,然后点击空格键,即可预览文件. 支持大部分格式,比如word.excel.pdf.图片.视频甚至图片的源文件等等.真正实 ...

  8. 当深度学习遇上图: 图神经网络的兴起!(文末送书)

    当深度学习遇上图,会碰撞出怎样的火花呢? 本文就带你来了解一下--近年来逆势而上的一门技术:图神经网络! 内容选自<图神经网络:基础与前沿(全彩)>一书! 01 什么是图 也许我们从来没有 ...

  9. 当深度学习遇上图: 图神经网络的兴起!

    当深度学习遇上图,会碰撞出怎样的火花呢? 本文就带你来了解一下--近年来逆势而上的一门技术:图神经网络! 内容选自<图神经网络:基础与前沿(全彩)>一书! 01 什么是图 也许我们从来没有 ...

最新文章

  1. delphi与java 类型转换_java中的数据类型转换
  2. 烂泥:Thinkpad E40伤不起啊……
  3. 【20180202】使用iptables做MySQL的端口转发
  4. Nginx负载均衡实现之用户手动选择与DNS轮询
  5. 關於BigDecimal的比較
  6. strtus2改成springboot_ssh框架使用springBoot升级迁移替换Struts2
  7. mysql和维信公众号_mysql实用指南
  8. JavaScript获取日期方法
  9. Linux内存之Cache
  10. 详解恶意软件 XcodeSpy 如何针对 iOS 开发人员展开供应链攻击
  11. linux 系统修复 启动盘,linux服务器系统盘坏且系统盘为软raid的修复方法
  12. 用户态处理arp、ndisc neighbour solication 报文
  13. Silverlight+WCF 新手实例 象棋 该谁下棋-A下B停(二十八)
  14. kali linux实现wifi扫描与密码字典破解入门
  15. 超市登录系统 java_超市订单管理系统,登录功能实现
  16. C语言编译插桩,深度解析编译插桩技术(二)AspectJ
  17. WebService测试工具,提供下载链接
  18. 从execl表中随机抽取几行数据
  19. LED白光测速仪MSE-V508
  20. 作为SLAM中最常用的闭环检测方法,视觉词袋模型技术详解来了

热门文章

  1. SAP License:COPA计划
  2. SAP License:结算金额大于可支配金额
  3. 数据测试风控中的几类应用场景
  4. MySQL高级知识(十三)——表锁
  5. spring的一些概念及优点
  6. 从零开始的前端异次元生活
  7. HR招聘_(二)_招聘方法论(招聘原因及原则)
  8. 【荐】万能清除浮动样式
  9. 树状数组(搬运自维基百科)
  10. [Git]Git远程仓库