来自 DBLP、ArXiv、STM 等多家学术出版机构和平台的数据表明,在过去 20 年间,计算机科学、物理学、统计学等研究领域的出版物总量都有大幅增加。像 CVPR、AAAI 等有关人工智能等新兴领域的顶级会议,每年的论文接受量也已经高达上千篇。面对雨后春笋一样涌现的学术出版物和千上万篇学术论文,任何一名研究者都不可能了解所有新领域,即使这一领域和自己的研究方向近似。

如果有一种工具,可以把一篇论文的源头梳理清楚,就能极大地减少无效检索的时间,快速了解一个新领域的发展脉络。

在以往的研究中,计算机领域的相关学者提出了很多数据挖掘技术,比如概念抽取、主题演变、算法图谱等。但是,这些数据挖掘技术更多是着眼于提炼学术文献中的关键术语信息,研究它们之间的关系与变化,却很少关注学术出版物本身较深层次的内容以及关联关系。

近日,AMiner 团队的硕士生殷达等人提出一种新方法——论文溯源树(https://mrt.aminer.cn/),通过刻画学术文献的发展演变脉络,来帮助科研人员了解前沿论文是如何演变而来的。相关研究论文“MRT: Tracingthe Evolution of Scientific Publications”已被 TKDE 2021 接收。

“MRT 溯源树”是一个通过构建论文演变图帮助学者研究论文发展的工具,目标是研究论文中各种思路方法的演变过程。

以知名 NLP 研究论文“BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding”为例,BERT 对于预训练模型、文本向量、序列编码等方法的使用来源于语言模型这一方向上的 ELMo、Word2vec、LSTM 等工作中,而 MLM、Transformer 等内容则可以追溯到机器翻译领域中的 MaskGAN、Attention is all you need 等文章。


图:BERT 论文溯源(部分)
为了生成关于 BERT 的“论文溯源树”,研究团队采用了检索,阅读,构图,推理等若干步骤。

MRT 溯源树技术原理
首先,算法将目标论文放入诸如 SemanticScholar 或是 AMiner 这样的开放数据源中进行检索,获取其论文标题、摘要及其引用信息,再根据引用信息扩展出多层引用网络,并采用 PageRank 算法进行排序,筛选与目标论文较为相关的文献。

然后,算法采用 TF-IDF、Sentence-BERT 以及 ProNE 等文本编码以及图特征编码方法对检索得到的论文网络进行编码计算,为每一篇论文生成表示向量。其中,TF-IDF 可以提取论文中表层的关键词信息;Sentence-BERT 则能够捕获到论文中较深层的语义信息;ProNE 则将文本信息放在论文引用网络中,用谱传播的方式将邻居节点论文之间的关联性融入论文表示向量中,从而最终得到兼顾文本信息和引用结构信息的论文向量。

另外,在此基础上,算法采用了 Kernel K-means 等方法,根据生成的论文向量进行聚类排列,连接成带有多条“溯源路径”的树状结构;同时,针对每一类(每一条溯源路径)中的论文,算法还采用了自动化标注算法为其生成标签来概括描述这些论文的主题。Kernel K-means 算法中的核函数除了用来进行聚类外,还被应用于计算论文及溯源路径对于目标论文演变的重要性。

到这里,一棵论文溯源树便就出生了。

图|论文溯源树(Demo 地址:https://mrt.aminer.cn/5dd3de98e07b013b38cf3399)
最后,在线上用户交互过程中,为了方便用户在阅读溯源树过程中可以快速定位当前感兴趣的相关论文,算法还应用强化学习设计出在线推荐模块,根据用户的阅读点击事件动态推荐相关论文。

此外,研究团队还针对上述各个步骤设计了一系列相关实验进行验证。考虑到由于缺少标注数据而难以直接进行评估的问题,研究团队还采用了若干种间接的衡量方法从多个角度对提出方法的有效性进行验证评估,并与基线算法进行比较,最终验证了算法的优越性。

目前,该算法已集成在 AMiner 学术信息挖掘系统中(https://mrt.aminer.cn/)。
在 AMiner 网站上,你可以通过点击想要生成溯源树的论文右侧的按钮来提交生成申请,在排队过后系统会自动搜集相关引用论文并计算生成溯源树。

论文溯源树AMiner相关推荐

  1. 自然语言处理经典必读论文Topic推荐-AMiner

    AMiner平台(https://www.aminer.cn)由清华大学计算机系研发,拥有我国完全自主知识产权.平台包含了超过2.3亿学术论文/专利和1.36亿学者的科技图谱,提供学者评价.专家发现. ...

  2. 体验论文新神器!AMiner人工智能工具,自动溯源论文来龙去脉

    点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入! 来自 DBLP.ArXiv.STM 等多家学术出版机构和平台的数据表明,在过去 20 年间,计算机科学.物理学.统计学等研究领域的出版物 ...

  3. 来试试读论文的新神器!AMiner发布“论文背景文献”一键生成工具,帮你搞清一篇论文的“来龙去脉”...

    来自 DBLP.ArXiv.STM 等多家学术出版机构和平台的数据表明,在过去 20 年间,计算机科学.物理学.统计学等研究领域的出版物总量都有大幅增加.像 CVPR.AAAI 等有关人工智能等新兴领 ...

  4. AMiner论文推荐——Large-scale Localization Datasets in Crowded Indoor Spaces

    AMiner平台由清华大学计算机系研发,拥有我国完全自主知识产权.平台包含了超过2.3亿学术论文/专利和1.36亿学者的科技图谱,提供学者评价.专家发现.智能指派.学术地图等科技情报专业化服务.系统2 ...

  5. AMiner论文推荐——Image Cropping on Twitter

    AMiner平台由清华大学计算机系研发,拥有我国完全自主知识产权.平台包含了超过2.3亿学术论文/专利和1.36亿学者的科技图谱,提供学者评价.专家发现.智能指派.学术地图等科技情报专业化服务.系统2 ...

  6. AMiner必读论文推荐#IJCV近年引用最高论文#

    论文集链接:https://www.aminer.cn/topic/611ca9b192c7f9be21847203 IJCV是人工智能与模式识别领域A类期刊,当前的影响因子为7.410且JCR分区为 ...

  7. AMiner订阅小程序上线,随时随地掌握最新科研成果

    你还在为了找不到论文而苦恼吗?你还在担心自己跟不上研究领域的热点嘛?你还在害怕自己和领域大牛错过吗? 不要犹豫,来试试这款新上线的小程序吧,排队时.地铁上,不限使用场景,随时随地掌握最新科研咨询,让你 ...

  8. 【NeurIPS100】AMiner参会攻略:13000人的NeurIPS大会,如何参加更高效?

    NeurIPS100计划是AMiner新推出的一个针对顶会人才和顶会论文的平台化的智能挖掘服务,其目的是对每个顶级会议的100位作者和讲者(人才)进行深度洞察,分析作者之间的关联关系,形成的研究派系. ...

  9. 必读论文 | 云机器人必读论文10篇

    云机器人(Cloud Robotics)是云计算和机器人的交叉学科并且是机器人领域的一个重大热点新方向,它运用云计算的强大运算和存储能力,给机器人提供一个更智能的"大脑",在增强单 ...

最新文章

  1. 隔壁,阿里18k老测试员常用的 软件测试工具大全
  2. DeepFaceLab 换脸
  3. 利用angular结合translate为项目实现国际化
  4. 读PPPOE/PPPOA白皮书小结
  5. 全球及中国冠状动脉内支架行业运行现状与十四五发展状况分析报告2022版
  6. 初学ctypes:打开进程并返回相关信息
  7. TCPDUMP/LIBPCAP 3-PCAP 中文手册(1)
  8. (11)DJBX33A APR哈希默认算法
  9. 使用CName记录的好处(转)
  10. 漫话:如何给女票解释华为鸿蒙OS是怎样牛逼实现跨平台的?
  11. python无法在终端运行程序_pycharm的Python console不能调试当前程序的解决方案
  12. 【项目源码】个人博客源码推荐
  13. 6-29 水上飞机(*) (20分)多重继承
  14. 《linux多线程服务端编程》---- C++基础前奏
  15. 《推荐系统实践》笔记及自己的理解(一)
  16. 大学综合测评中,使用VBA代码自动完成EXCEL成绩表
  17. 你的人生是先装石头还是装沙子?
  18. 不用 Spring Security 可否?试试这个小而美的安全框架
  19. 科众集团聚力呈现2019创新服务峰会——“碰撞·革新”
  20. shared_preload_libraries

热门文章

  1. Python 中的魔术方法(双下划线开头和结尾的方法)
  2. 2022-2028年中国聚硫橡胶行业市场研究及前瞻分析报告
  3. 2022-2028年中国TAC薄膜行业市场全景评估及投资前景规划报告
  4. 2019秋招面试常考题目
  5. TVM性能评估分析(三)
  6. TVM vs TensorRT比较
  7. Android app 启动页尺寸大小 忘记了怎么办
  8. Android resource linking failed
  9. day22_面向对象
  10. 第16届信息安全与对抗技术竞赛-Misc