点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入!

来自 DBLP、ArXiv、STM 等多家学术出版机构和平台的数据表明,在过去 20 年间,计算机科学、物理学、统计学等研究领域的出版物总量都有大幅增加。像 CVPR、AAAI 等有关人工智能等新兴领域的顶级会议,每年的论文接受量也已经高达上千篇。面对雨后春笋一样涌现的学术出版物和千上万篇学术论文,任何一名研究者都不可能了解所有新领域,即使这一领域和自己的研究方向近似。

如果有一种工具,可以把一篇论文的源头梳理清楚,就能极大地减少无效检索的时间,快速了解一个新领域的发展脉络。

在以往的研究中,计算机领域的相关学者提出了很多数据挖掘技术,比如概念抽取、主题演变、算法图谱等。但是,这些数据挖掘技术更多是着眼于提炼学术文献中的关键术语信息,研究它们之间的关系与变化,却很少关注学术出版物本身较深层次的内容以及关联关系。

近日,AMiner 团队的硕士生殷达等人提出一种新方法——论文溯源树(https://mrt.aminer.cn/),通过刻画学术文献的发展演变脉络,来帮助科研人员了解前沿论文是如何演变而来的。相关研究论文“MRT: Tracingthe Evolution of Scientific Publications”已被 TKDE 2021 接收。

“MRT 溯源树”是一个通过构建论文演变图帮助学者研究论文发展的工具,目标是研究论文中各种思路方法的演变过程。

以知名 NLP 研究论文“BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding”为例,BERT 对于预训练模型、文本向量、序列编码等方法的使用来源于语言模型这一方向上的 ELMo、Word2vec、LSTM 等工作中,而 MLM、Transformer 等内容则可以追溯到机器翻译领域中的 MaskGAN、Attention is all you need 等文章。

图:BERT 论文溯源(部分)

为了生成关于 BERT 的“论文溯源树”,研究团队采用了检索,阅读,构图,推理等若干步骤。

MRT 溯源树技术原理

首先,算法将目标论文放入诸如 SemanticScholar 或是 AMiner 这样的开放数据源中进行检索,获取其论文标题、摘要及其引用信息,再根据引用信息扩展出多层引用网络,并采用 PageRank 算法进行排序,筛选与目标论文较为相关的文献。

然后,算法采用 TF-IDF、Sentence-BERT 以及 ProNE 等文本编码以及图特征编码方法对检索得到的论文网络进行编码计算,为每一篇论文生成表示向量。其中,TF-IDF 可以提取论文中表层的关键词信息;Sentence-BERT 则能够捕获到论文中较深层的语义信息;ProNE 则将文本信息放在论文引用网络中,用谱传播的方式将邻居节点论文之间的关联性融入论文表示向量中,从而最终得到兼顾文本信息和引用结构信息的论文向量。

另外,在此基础上,算法采用了 Kernel K-means 等方法,根据生成的论文向量进行聚类排列,连接成带有多条“溯源路径”的树状结构;同时,针对每一类(每一条溯源路径)中的论文,算法还采用了自动化标注算法为其生成标签来概括描述这些论文的主题。Kernel K-means 算法中的核函数除了用来进行聚类外,还被应用于计算论文及溯源路径对于目标论文演变的重要性。

到这里,一棵论文溯源树便就出生了。

图|论文溯源树(Demo 地址:https://mrt.aminer.cn/5dd3de98e07b013b38cf3399)

最后,在线上用户交互过程中,为了方便用户在阅读溯源树过程中可以快速定位当前感兴趣的相关论文,算法还应用强化学习设计出在线推荐模块,根据用户的阅读点击事件动态推荐相关论文。

此外,研究团队还针对上述各个步骤设计了一系列相关实验进行验证。考虑到由于缺少标注数据而难以直接进行评估的问题,研究团队还采用了若干种间接的衡量方法从多个角度对提出方法的有效性进行验证评估,并与基线算法进行比较,最终验证了算法的优越性。

目前,该算法已集成在 AMiner 学术信息挖掘系统中(https://mrt.aminer.cn/)

(来源:https://mrt.aminer.cn/)

在 AMiner 网站上,你可以通过点击想要生成溯源树的论文右侧的按钮来提交生成申请,在排队过后系统会自动搜集相关引用论文并计算生成溯源树。

快来点击文末【阅读原文】尝试一下吧~

AI TIME欢迎AI领域学者投稿,期待大家剖析学科历史发展和前沿技术。针对热门话题,我们将邀请专家一起论道。同时,我们也长期招募优质的撰稿人,顶级的平台需要顶级的你!

请将简历等信息发至yun.he@aminer.cn!

微信联系:AITIME_HY

AI TIME是清华大学计算机系一群关注人工智能发展,并有思想情怀的青年学者们创办的圈子,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法、场景、应用的本质问题进行探索,加强思想碰撞,打造一个知识分享的聚集地。

更多资讯请扫码关注

点击 阅读原味 体验!

体验论文新神器!AMiner人工智能工具,自动溯源论文来龙去脉相关推荐

  1. 查阅 arXiv 论文新神器,一行代码比较版本差别,Github 新开源!

    点上方蓝字计算机视觉联盟获取更多干货 在右上方 ··· 设为星标 ★,与你不见不散 仅作分享,不代表本公众号立场,侵权联系删除 转载于:量子位 AI博士笔记系列推荐 周志华<机器学习>手推 ...

  2. 查阅arXiv论文新神器,一行代码比较版本差别,Github新开源!

    贾浩楠 发自 凹非寺 量子位 报道 | 公众号 QbitAI 在arXiv上发现了一篇中意的论文,当然是下载保存慢慢研究! 然而,等你好不容易看完了文章,发现作者又上传了V2.V3,一眼望去却看不出差 ...

  3. 【论文推荐】SFFAI 人工智能前沿学生论坛 论文推荐

    84期 句法分析专题 论文推荐 "<SFFAI 84期-句法分析专题>来自苏州大学的张宇同学推荐的文章主要关注于句法分析领域,你可以认真阅读讲者推荐的论文,来与讲者及同行线上交流 ...

  4. 华东交大计算机绘图,华东交通大学理工学院本科毕业设计(论文)新手册.doc

    华东交通大学理工学院本科毕业设计(论文)新手册 华东交通大学理工学院 本科生毕业设计(论文) 指 导 手 册 教务处制 年 月 日 目录 华东交通大学理工学院本科毕业设计(论文)工作管理办法3 华东交 ...

  5. 来试试读论文的新神器!AMiner发布“论文背景文献”一键生成工具,帮你搞清一篇论文的“来龙去脉”...

    来自 DBLP.ArXiv.STM 等多家学术出版机构和平台的数据表明,在过去 20 年间,计算机科学.物理学.统计学等研究领域的出版物总量都有大幅增加.像 CVPR.AAAI 等有关人工智能等新兴领 ...

  6. 【AIGC使用教程】论文阅读神器 SciSpace 从注册到体验

    欢迎关注[AIGC使用教程] 专栏 [AIGC使用教程]论文阅读神器 SciSpace 从注册到体验 [AIGC使用教程]Microsoft Edge/Bing Chat 注册使用完全指南 [AIGC ...

  7. python数学公式编辑工具_1行代码搞定Latex公式编写,这个4.6M的Python小插件,堪称论文必备神器...

    原标题:1行代码搞定Latex公式编写,这个4.6M的Python小插件,堪称论文必备神器 来源:量子位 关注前沿科技 萧箫 发自 凹非寺 量子位 报道 | 公众号 QbitAI 萧箫 发自 凹非寺 ...

  8. python-docxtpl妙用:论文神器,excel习题集自动转换成word文档格式!

    python-docxtpl妙用:论文神器,excel习题集自动转换成word文档格式! 第三方库 # pandas数据处理 import pandas as pd# word文档处理库 from d ...

  9. AI自动评审论文,CMU这个工具可行吗?

    视学算法报道 作者:魔王.杜伟 转载自公众号:机器之心 近年来,各大学术顶会的论文投稿量暴增,这使得论文评审的工作量大大增加.那么,有没有可能自动生成论文的评审结果呢?最近,CMU 研究者对此展开了探 ...

最新文章

  1. 为什么「反向传播」一定要在生物学上有对应?
  2. codeforces水题100道 第五题 Codeforces Round #304 (Div. 2) A. Soldier and Bananas (math)
  3. 查看Linux进程状态
  4. SharePoint 2010 沙盒解决方案以及 Visual Studio 2010 模板
  5. xgboost调参指南
  6. 【本质】你知道C语言编译的过程吗?
  7. 开发中遇到的bug记录
  8. App iPhone版内部测试使用办法
  9. html页面div等分,HTML5使用纯CSS实现“按比例平分”整个垂直空间
  10. Tomcat找不到Controller里面的路径
  11. js面向对象数据属性和访问器属性,定义多个属性及读取属性的特性
  12. openwrt的ipk包开发
  13. vue动态路由,刷新页面空白问题
  14. 大秦:开局签到满级剑术天赋(一)
  15. python pyd_python项目(.pyd或者.so)代码加密
  16. 2021爱分析·快消品牌数字化趋势报告——多点开花,快消品牌商数字化新探索
  17. 修改Mac默认设置使Mac支持NTFS硬盘的读写
  18. 电影《我不是药神》观后感
  19. ArcGIS pro/ArcGIS 10.6及以上版本的最强工具箱——“WhiteboxTools”(468新功能:GIS分析,水文分析,图像分析,激光雷达分析,数学和统计分析,数据流网络分析和)!
  20. linux 删除IP地址

热门文章

  1. 巧用foxmail同步qq邮箱的通讯录
  2. 云大使推广的返利规则是什么
  3. Java8新特性——Lambda函数式编程
  4. 【SDX62】WCN685X hostapd配置WPA2/WPA3混合模式,WPA3连接成功,只支持WPA2的设备连接失败问题分析及解决方案
  5. 仿照源码,手写一个自定义 Spring MVC 框架
  6. UCenter单点登录,同步登录,同步登出原理
  7. 微信屏蔽网址解决办法,如何实现被微信屏蔽的网址在微信内正常访问
  8. 机器视觉——入门基础(一)—— 相机篇
  9. 谈谈win10的简单美化
  10. 俗语“手握金鱼骨,富贵不用愁”,是啥意思?金鱼骨怎么形成的?