2020 年 5 月 23 日上午,在中国中文信息学会青年工作委员会主办、北京智源人工智能研究院和美团点评承办的“ACL-IJCAI-SIGIR 顶级会议论文报告会(AIS2020)”中,智源青年科学家、中科院计算所研究员兰艳艳做了题为《SIGIR 趋势报告》的前沿分析。

兰艳艳,主要研究方向为机器学习和信息检索,在相关领域重要会议和期刊累计发表论文 30 余篇,获得了 SIGIR 2012 的最佳学生论文奖和 CIKM 2017 最佳论文 Runnerup 奖。

本次演讲中,兰艳艳介绍了近10年 SIGIR 论文投稿和录稿的整体发展趋势,并着重分析了SIGIR最近两年会议论文中的研究热点和动向,以及就如何提高SIGIR 的投稿录取率分享了自己的经验和技巧。

据悉,作为信息检索领域的顶级会议, SIGIR 2020 即将于7月25日召开,所以本篇报告也很适于大家预热一下对信息检索领域最新动态的趋势性认知,是一篇很好的SIGIR 2020 观摩指南。以下是智源社区编辑为大家整理的演讲内容,请大家阅读。

整理:智源社区 马瑞军

一、SIGIR 2020 背景介绍

兰艳艳首先简明扼要地介绍了一下SIGIR 2020的相关背景。

SIGIR 属于信息检索领域的顶级会议,由 ACM SIGIR 组织于 1978 年开始举办。举办方式是每三年在美洲、欧洲和其它区域轮换进行,比如2017 年在日本东京、2018 年在美国密西根大学、2019 年在法国巴黎,而2020年的SIGIR 会议将在中国西安举行。因为疫情的影响,这次SIGIR 2020 已经改为线上举办的模式。值得一提的是,这次中国学者在 SIGIR 2020 的组委会中占据了一半以上,这意味着中国学者经过艰辛的努力后,在 SIGIR 中开始有着非常良好的发展。

二、SIGIR 投稿和录稿十年趋势分析

图 1:1999-2019 年 SIGIR 论文投稿及录稿趋势

如图1所示的1999年至2019年SIGIR 论文投稿及录稿趋势,我们可以看到在 2009至2012 年之间 SIGIR 投稿、录取数达到了顶峰阶段,而在 2012 年之后出现了明显的下滑,直到2018 年,经过征文主题的改革后,SIGIR 才出现复苏,到2020年开始有了一个比较大的增长,无论是投稿量还是收稿量都实现了突破,500多篇中有140篇被接收,录取率也从之前的18%至22%之间增长到28%。

接下来,兰艳艳比较了2019、2020年中美学者的论文接收情况。我们发现,自 2019 年开始,中国学者在接收率上(36/141)第一次取得了比美国学者更好的成绩(22/99)。2020 年,从目前的数据来看,中国学者持续 了2019 年的超越趋势,稳中向好,其中Full Paper的接收量为67篇,远高于美国的37篇,而Short Paper 的情况也和Full Paper类似,具体接收率等数据还需等待会议官方揭晓。

图 2:2019 年中美两国学者论文接受情况

 

图 3:2020 年中美两国学者论文接受情况

三、SIGIR 最近两年的研究热点

下面我们来看一下2019年的SIGIR主题分布(图4),自2018开始,它相对于以前有了很大的改变,会议主题设置已经从检索、搜索和推荐等开始向更多的方向扩展,包括Core IR、Recommendation、AI&IR、Human、Evaluation、Application、Foundation and Future等,所以整个SIGIR近两年的改革方向将会更加开放,尤其鼓励更多AI与IR结合的方向。

 图 4:2019 年 SIGIR 热门 Topic 及收稿趋势

根据对 2019 年 SIGIR 热门Topic 及收稿统计数据的研究,我们可以从中发现如下几个规律:

① Recommendation成为主要Track;

② Core AI式微;

③ 投稿量高的Track,不一定接受率就高;

④ Human和Evaluation等小众Track,投稿量少但是接受率很高,值得关注。

图 5:2020 年 SIGIR 不同 Topic 接收统计表

2020 年热门 Topic 的接受率与 2019 年相比基本相同,依旧是 Recommendation 占了最大的比重,投稿量和接收量仍然最多;由于 Ranking 和 Search 属于 AI 非常关注的问题,所以比重也很大,Foundation、Human 和 Evaluation 持续小众。

综合来说,Recommendation是SIGIR目前的主要Topic之一,同时一些小众Topic,例如Human和Evaluation在录取率方面也有一定的优势。

图 6:2019 年(上)与 2020 年(下) SIGIR Full Paper 研究热点词云

下面,我们通过Full Paper 和Short Paper 的词云图来进一步看2019年、2020年 SIGIR 的研究热点。首先,通过2019 年、2020 年的 Full Paper  词云图中可以看到, 从任务的角度上看, Search、Recommendation 和 Generation 等多个方面的研究比较多,使用的方法主要是Machine Learning、Knowledge Embedding、Graph Neural Network等方法。其中,Search任务上,这几年的研究热点主要是如何将深度神经网络包括强化学习在内的一些新方法,用到检索函数的设计上;Recommendation任务上,除了基于神经网络的推荐函数之外,推荐系统与用户的交互,以及推荐系统的解释性,都是这两年的研究热点;Generation任务最近两年在SIGIR的投稿量明显增多,除了一般的NLP任务,SIGIR更关注应用于Conversational IR的对话研究,期待该方向的研究能够更好的推动个人智能助手技术的发展。此外Adversary 也是最近两年比较受关注的, 比如 SIGIR 2017年曾将 Best Paper Runner-Up奖颁布给了Adversary方面的工作 “IRGAN: AMinimax Game for Unifying Generative and Discriminative Information Retrieval Models”。

图 7:2019 年(上)与 2020 年(下) SIGIR Short Paper 研究热点词云

从 Short Paper 词云图的角度,2019 年和 2020 年的趋势与Full Paper 词云图呈现的发展趋势类似,也是 Recommendation 占据了很大一部分,同时还可以看到像Transformer 这样的 AI 新方法正开始受到欢迎。

通过上述词云图的分析,我们可以得到这样几个规律:

① IR 更加关注的还是 Traditional IR tasks,例如:Recommendation, Search, Ranking;

②  Neural + IR 正在流行,如 Neural, Representation, Graph, Attention;

③ 目前在 IR 中收到关注的前沿AI技术有:Adversarial 和 Transformer;

④ 目前 Diverse Applications 例如 Generation, Conversation, Multi Domain 相对更加容易发论文。

四、SIGIR 投稿建议:关注基础,重视技术

接下来,兰艳艳根据近年SIGIR的论文发表情况,为大家分享了一些SIGIR论文的中稿技巧。首先,她盘点了SIGIR 往年的 Best Paper,指出 SIGIR 是一个关注基础的会议,比较重视技术,比如 2019 年颁给了一个研究优化方法的文章,2016 年颁给了 Understanding Information Need,今年的 Best Paper 花落谁家,请拭目以待。

图8:SIGIR 历年最佳论文

那么,如何提高论文在 SIGIR 的接收率呢?可以关注以下几个小技巧:

① 拓展投稿领域。透过SIGIR的发展规律,可以发现它接受论文的领域圈子变得越来越广,AR、ML、NLP 等相关领域都可以投稿。

② 重视实验部分。SIGIR 是特别注重实验的会议,想要做一篇好的 SIGIR Paper, 实验内容要占到文章总篇幅的近一半内容,因此实验部分一定要做的足够充分。

③ 新的 Application 可能会更加受欢迎。如果文章是关于一个新 Application,比如 Cross-domain 或者 Human Study,那么此类文章相对比较容易引起 SIGIR 关注,做模型反而是比较困难的事情。

④ 冷门领域新出路。当前ML领域开始收到关注但在应用上看来还比较偏的领域,实际上在 SIGIR 圈子当中比较受欢迎,例如 Bias, Fairness 和 Interpretability。这也和SIGIR关注的应用比较有关系。例如搜索或推荐中有很典型的Position Bias问题,这对于建模就是一个非常重要的问题;再比如现在IR中用到很多神经网络的方法,但这些方法往往很难解释,但对IR系统来说,提供一个可解释的结果对用户体验是很重要的,所以可解释性方向在IR领域越来越受关注。

点击阅读原文,进入智源社区参与更多讨论。

兰艳艳:SIGIR十年趋势(附视频)相关推荐

  1. 兰艳艳:理想温暖10年科研路,女性可以柔和,更要自信、专业 | 妇女节特辑...

    她力量 近年来,"她"力量正在科学家群体中快速升温. 在一年一度的妇女节到来之际,智源社区选取了五位颇具代表性的女性科学家,进行了深度访谈.在她们中,有人选择食物图像识别,对选择的 ...

  2. 她力量系列七丨兰艳艳:理想温暖10年科研路,女性可以柔和,更要自信、专业 | 妇女节特辑

    文章转载丨智源社区 作者:Isabel.李梦佳 导读:数学博士,在美国加州伯克利大学担任访问学者,还有近十年的中科院计算所研究员经历--见面前,我在脑中为兰艳艳描绘出了一幅"学术.忙碌.雷厉 ...

  3. 作者:兰艳艳,女,中国科学院计算技术研究所副研究员、硕士生导师。

    兰艳艳,女,中国科学院计算技术研究所副研究员.硕士生导师,目前主要从事机器学习与数据挖掘领域的研究工作,在ACMSIGIR.NIPS.ICML等本领域顶级会议发表论文20余篇,并荣获SIGIR最佳学生 ...

  4. 【华人学者风采】兰艳艳 中国科学院

    [华人学者风采]兰艳艳,中国科学院计算技术研究所副研究员.主要从事机器学习.数据挖掘方面的研究,特别是在排序学习以及统计学习理论的研究方面,做出了一系列研究成果.担任SIGIR,KDD,AIRS,CC ...

  5. 华为-2025十大趋势:智能世界,触手可及.pdf(附下载链接)

    大家好,我是文文(微信:sscbg2020),今天给大家分享华为发布的<2025十大趋势白皮书:智能世界,触手可及.pdf>. 5G.云.IoT.AI的融合应用正在塑造一个万物感知.万物互 ...

  6. 2020年的创业趋势是什么?未来适合什么行业钱赚的多?[附十六大趋势]

    伴随着就业的压力越来越大,不少人苦恼自己该从事什么行业,做什么工作可以养活自己.很多还没毕业的大学生就想着毕业后可以做些什么,从事什么,所以2020年的创业趋势成了一个热门话题,下面谈2020年创业趋 ...

  7. 全球区块链应用十大趋势

     <全球区块链应用十大趋势>报告发布(附全文) 2017-07-17 大数据 大数据 大数据 WeChat ID hzdashuju Intro 大数据蕴藏着丰富的信息和价值,如何处理 ...

  8. 《2022产业互联网安全十大趋势》发布,专家学者透析产业安全新变化

    2月28日,在中国产业互联网发展联盟指导下,人民邮电报.中国信息安全.腾讯安全联合实验室.腾讯研究院联合推出<2022产业互联网安全十大趋势>.该报告由<中国信息安全>杂志出品 ...

  9. 华为汪涛:无线网络未来十年十大趋势

    来源:通信产业网 2021全球移动宽带论坛(Global MBB Forum)期间,华为常务董事.ICT基础设施业务管理委员会主任汪涛发表了题为"走向智能世界2030,无线网络未来十年十大趋 ...

最新文章

  1. Response.Redirect() 跳转中的ThreadAbortException
  2. matlab 图像读取默认值,实验一MATLAB数字图像处理
  3. cc2530期末试卷_ZigBee应用技术答案试题题目及答案,期末考试题库,章节测验答案...
  4. Java 集合框架综述
  5. Ubuntu系统---以virtualenv方式安装Tensorflow-CPU
  6. python 文本相似度现状_python文本相似度分析
  7. 算法—二叉查找树的相关一些操作及总结
  8. ios 时间选择器月份设置中文_iOS 自定义日期选择器  PickerView优化版
  9. 关于Mysql datetime类型存储范围测试
  10. 计算机行业没有获奖证书简历怎么填,小升初没有奖项证书该如何写简历
  11. 近世代数——Part1 整数和等价关系
  12. python爬取大众点评字体_python采集大众点评(字体反爬)
  13. matlab读取一幅灰度图,Matlab处理灰度图
  14. 极化SAR几种成像模式
  15. 数字化势不可挡:“衣食住行”的升级之战,行业巨头如何破局
  16. 20210505 秀米导入已发布微信推送的所有内容
  17. 学习笔记42—Win7下安装Linux双系统
  18. Pandas按行列求和
  19. layui分页和模板引擎
  20. 港版支付宝上线,支付宝和微信海外大战谁的胜算更大?

热门文章

  1. 阿米洛键盘取消win_【机械键盘】2020年双十二那些值得购买的机械键盘推荐
  2. linux网络工程师证书,网络工程师应该考什么证
  3. winscp是什么软件_winscp ftp,winscp ftp是什么软件?软件介绍
  4. 输入今天是星期几的序号,给今天和昨天赋予枚举值,并输出昨天是星期几的枚举值
  5. php ajax session失效,PHP中解决ajax请求session过期退出登录问题
  6. BZOJ2127happiness——最小割
  7. Blend_ControlTemplate(Z)
  8. Powershell(3)
  9. Rsession: R sessions wrapping for Java
  10. SlackTextViewController