北京大学 刘钰


原文《SimTab: Accuracy-Guaranteed SimRank Queries through TighterConfidence Bounds and Multi-Armed Bandits》收录于VLDB2020.

SimRank是一种经典的基于图结构的节点相似度衡量指标,由Jeh和Widom于SIGKDD2002提出。其很大程度受PageRank算法启发,主要思想为(1)每个节点与自身最相似(相似度为1);(2)两个节点的相似度递归的由它们所有入邻居的组合的相似度定义,即如果它们的邻居之间相似,则它们也比较相似。SimRank在社交网络、推荐系统乃至图嵌入(Graph Embedding)等领域有广泛应用,目前原始SimRank论文已有超过1500次引用。

除了递归的定义外,SimRank也有若干基于随机游走(Random Walk)的定义。例如,将从某个点开始的随机游走定义为每一步以1-\sqrt{c}的概率停止在当前节点,以\sqrt{c}的概率走到随机选取的某个入邻居节点。则节点u和v的SimRank相似度等于从u和v分别开始的两个随机游走在某个节点相遇的概率。需要注意的是,相遇的定义为两个随机游走的步数也相同。

由于SimRank的定义导致其具有较高的计算复杂度,在大规模图上计算SimRank一直是图相似度计算的热点研究问题。近年来,不少图数据管理领域的研究对单对(Single Pair)、单源(Single-Source)和任意点对(All-Pair)SimRank计算提出了相应算法,相关论文发表于数据管理和相关领域的国际顶级会议/期刊。不过,SimRank计算的效率和可扩展性问题很大程度上仍未解决;同时,提出的大部分算法为启发式算法,即计算的SimRank估计值与SimRank真实值间的误差没有理论上的精度保证;少部分算法给出了基于计算误差的理论保证,可适用于单源和单对查询等。

然而,实际应用中最多的两种查询,即Top-k查询和阈值(Thresholding)查询的直接研究工作较少;即使是有查询误差理论保证的单源算法也不能直接用于这两种查询而保证较好的精度。


本论文从另一角度出发,将Top-k和阈值SimRank查询建模为多臂赌博机(Multi-Armed Bandits,MAB)问题。具体来说,给定查询点u,对每个图中的节点v,将节点对(u,v)建模为一个arm,通过对不同arm进行反复采样得出查询结果。更严格的说,因为MAB算法的采样策略(此处称为Sample-one-arm策略)根据每个arm的估计值决定采样次数,可以实现理论上接近最优的采样复杂度。

此外,注意到已有MAB算法虽然保证了理论上的接近最优复杂度,但实际效率无法处理大规模图上的SimRank计算,即arm数量过多的问题。针对此,我们提出了适用于基于随机游走定义相似度的arm采样策略,即Sample-all-arms策略,大幅提升了算法的实际效率。同时,更仔细的分析发现算法的理论复杂度较已有MAB算法也得到了提升。
总体来讲,Top-k和阈值SimRank查询算法的框架由两部分构成。我们首先执行Sample-all-arms策略,不断排除不可能在结果中的节点;当候选节点数量足够少以至于使用Sample-one-arm策略处理每个节点复杂度更低时,算法切换到后一种采样策略继续执行。
除此之外,本文还提出了若干算法优化策略提升实际运行效率,包括使用更紧致的集中不等式(Concentration Inequality)、结合SimRank的局部遍历(Local Push)策略等。

本文提出的算法在理论计算复杂度、实际计算效率和计算结果的准确性三方面都较已有算法有很大提升。

在四个大规模图数据上的实验表明本文提出的算法具有明显的效率和准确度优势。同时,本文首次对两类查询做了详细的实验对比,分析了目前若干state-of-the-art SimRank算法的实际表现。

微信公众号“图谱学苑”每周发布最新知识图谱动态,专业知识图谱论文导读,欢迎关注投稿。

论文导读 | 基于多臂赌博机(MAB)建模的SimRank计算相关推荐

  1. 关系查询处理 查询优化 论文_论文导读基于查询负载的分布式RDF图分割和分配...

    Adaptive Distributed RDF Graph Fragmentation and Allocation based on Query Workload PengPeng, Lei Zo ...

  2. retinanet50预训练权重_论文导读|基于注意力机制对齐增强预训练语言模型

    李彦增 这篇文章通过提出了一种注意力机制对齐的方法,为预训练语言模型在 fine-tuning阶段引入了多源分词信息外部知识,从而提升了预训练语言模型在各个子任务上的效果.本文收录于 2020 年 A ...

  3. 论文导读 | 基于注意力机制对齐增强预训练语言模型

    这篇文章通过提出了一种注意力机制对齐的方法,为预训练语言模型在 fine-tuning阶段引入了多源分词信息外部知识,从而提升了预训练语言模型在各个子任务上的效果.本文收录于 2020 年 ACL. ...

  4. 电力论文:基于牛顿拉尔逊(直角坐标)的电气潮流计算(python实现)

    个人电气博文目录传送门: 学好电气全靠它,个人电气博文目录(持续更新中-) 提示:专栏订阅后,可以查看该专栏所有文章. 文章目录 一.电力网络 1.1节点电压方程 1.2节点导纳矩阵 1.3非标准变比 ...

  5. mysql8.0其他机器访问_论文导读|基于机器学习的高速缓存预取

    作者:北京大学杨磊 这篇文章通过机器学习方法预测未来访问来解决LSM-tree存储引擎下的缓存失效问题,目前该论文已经被数据库顶会VLDB2020接收. 问题背景 传统的缓存替换机制,比如LRU.LF ...

  6. 论文解读:基于深度相机的3D建模 2020最新综述

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 作者丨安如夏@知乎 来源丨https://zhuanlan.zhihu.com/p/299489800 ...

  7. 论文分享-《基于数据驱动多输出 ARMAX 建模的高炉十字测温中心温度》

    1.简介 最近在学习研究NARMAX,故也分享下自己看的一篇论文. 2018 年 3 月 的<基于数据驱动多输出 ARMAX 建模的高炉十字测温中心温度>.主要是采用NARMAX模型进行预 ...

  8. matlab系统解列模块,基于MATLAB准同期装置建模与仿真-毕设论文.doc

    基于MATLAB准同期装置建模与仿真-毕设论文 基于MATLAB的准同期装置建模与仿真 摘要 在电力系统中,由于电网运行的需要,同步发电机.同步补偿机.同步电动机经常投入或退出电网.同步发电机投入电力 ...

  9. #今日论文推荐#WSDM 2022 | 基于双曲几何无标度图建模的知识感知推荐

    #今日论文推荐#WSDM 2022 | 基于双曲几何无标度图建模的知识感知推荐 为了缓解传统推荐系统中的冷启动与数据稀疏问题,近年来,向推荐系统中引入外部知识构建知识图谱受到了越来越多的关注.此外,由 ...

最新文章

  1. php构造和析构方法,php5构造函数与析构函数实例
  2. 画pytorch模型图,以及参数计算
  3. [视频教程] 配置mysql用户的权限并查询数据
  4. [ZJOI2016]旅行者(网格图分治最短路)
  5. 8X25Q充电部分软件梳理(CP侧)
  6. VCSA6.7 备份和还原
  7. 楼房顶顶面起渣是何原因?怎么修补?
  8. 用DataAdapter对象填充DataSet数据集。
  9. EPSON清零软件sscserve40使用方法
  10. 工业相机和镜头主要参数解释
  11. 记一次修复Mac和Win7双系统启动菜单的经历
  12. 计算机毕业设计之郑州灾区志愿者报名管理系统
  13. 股票数据API接口文档说明
  14. 微信小游戏《飞机打方块》源码分享
  15. Android获取NFC标签和NFC十进制16进制ID
  16. Plants vs. Zombies(二分)
  17. @Value注解失效的原因分析
  18. Vue+Element UI表格列的显示和隐藏
  19. 蛋疼的OneNote同步问题终于找到解决方案了
  20. 【毕业季】研究生の毕业总结

热门文章

  1. tmail邮箱服务器,邮件服务器(一)Sendmail服务器1
  2. 操作系统真象还原第5章:保护模式进阶,向内核进阶
  3. 如何安装husky_利用huskylint-staged构建代码检查工作流
  4. 电脑xp系统坏了,如何处理
  5. 028 Rust死灵书之Vec的push和pop
  6. signature=7b0862cc6ec2e108409eba8ab4ddc267,来用百度密语吧!!!
  7. 富友支付接口对接不是必填的值如何处理
  8. 安装好Windows 8后必做的几件事情,让你的Win8跑的更快更流畅。
  9. 经典DP:测试鸡蛋承受力
  10. 数据分析指标体系搭建实战!