点击上方,选择星标置顶,每天给你送干货

阅读大概需要13分钟

跟随小博主,每天进步一丢丢

科学出版的世界是一片雨林:思想争夺阳光/注意力;有些人胜出并变得更高,而其他人则被遗忘。

作者 | Camel

编辑 | 唐里

来自 | AI科技评论

在昨天ACL 2020公布了最新的投稿数量:3429篇。这也是所有ACL旗下会议首次接收论文数量破 3000篇。

这引起了笔者的好奇,历届 ACL 都接收了多少文章呢?当前做NLP的研究人员数量在什么量级呢?目前最热的研究领域是什么呢?

笔者在搜索相关资料的时候,无意间发现就在前不久已经有人做了更为详细的调查和分析,

这是位匿名者。

研究内容发表在medium上,账户也是新注册的。笔者顺藤摸瓜,找到了他的调查研究论文《The State of NLP Literature: A Diachronic Analysis of the ACL Anthology》,论文内容丰富多样,调查了ACL Anthology(AA)相关的所有论文,范围从1965年到2018年。

在论文首页底部他也写了,匿名是因为这项工作目前还没有正式发表。

且先不追究这位作者是谁,笔者从报告及他的博客中撷取部分内容,来了解 NLP 领域 50多年来的发展态势。共有八问——

1、NLP领域每年发多少论文?

2、有多少人在做 NLP 研究?

3、哪个会议/期刊的论文最多?

4、NLP领域,女性喜欢做什么研究?

5、NLP领域,年轻人真的越来越多了吗?

6、对哪种语言的研究最多?

7、哪个领域最热?

8、谁的影响力最大?

1、NLP领域每年发多少论文?

(手机横屏来看更方便)

截至2019年6月,AA拥有约50,000个条目,但其中包括一些并非真正的研究出版物的条目(例如,前言、序言、目录等),将这些舍弃后,还剩44,896篇文章。上图中显示了从1965年到2018年期间,每年发表的论文数量。

从图中可以看出:

1)1990年之后,NLP的研究开始突飞猛进,特别是在2000年之后,AA文章数量开始破千;

2)隔年出版的影响在图中可以清晰看到,特别是1998年以来,类似LREC(据说录用率超60%)、COLING这样的会议。

2、有多少人在做 NLP 研究?

(手机横屏来看更方便)

除了隔年出版的会议影响外,我们可以看出一个明显的趋势,即从事NLP研究的人数在不断增长。

一个进一步的有趣的问题是,最近到底有多少人活跃在 NLP 第一线呢?这很难确切回答,但我们可以将一段时间里发表论文的人数累加起来看,例如:

在2017年和2018年(至少2年)发表了至少一篇论文的人大约为12k(精确来讲是11957);

在2015年至2018年(至少4年)发表了至少一篇论文的人大约是17.5k(精确为17457)。

3、哪个会议/期刊的论文最多?

当然是各种 workshop 了!

这张图展示的是不同会议或期刊的收录论文情况。

从中可以看出,除了各种workshop论文外,LREC已经成为NLP会议论文的最大单一来源(尽管LREC是一个相对较新的会议,每两年召开一次,但它的接受率往往很高,约60%)。其次则是主会ACL/4839,COLING/3142,NAACL/1479……

4、NLP领域,女性喜欢做什么研究?

NLP领域和其他领域一样,并不会记录作者的个人信息,例如性别、年龄、语言等。但这并不代表我们没有办法研究性别分布——作者的名字往往会蕴含着性别信息。根据这个信息,这位匿名作者利用美国社会保障局发布的新生儿姓名和性别数据库进行匹配识别。

(作者注:由于中文名字的拼音与性别识别的关联较小,因此中文作者的性别较难识别。)

1)女性发表的论文占多大比例?

下面这幅图是女性作为第一作者在历年论文中所占比例:

经过统计,女性作为第一作者发表论文数量约26637篇,大约占总论文数量的30.3%。从时间线上来看,从1980年至今,女性第一作者论文比例总体来说变化不大,但近年来却有稍微的下降趋势。

尽管30%的比例,相较于计算机科学的其他子领域已经比较高了,但离男女势均力敌还比较遥远。

2)女性喜欢做什么研究?

(手机横屏来看更方便)

作者还做了一个有意思的统计,依据关键词来看女性第一作者的分布。从图中可以看出,女性的工作在discourse、annotation、study、corpus等领域所占比例较多,而例如parsing、dependency、model等则相对较少。

5、NLP领域,年轻人真的越来越多了吗?

如果能去调查NLP研究人员的实际年龄分布,当然是一件有趣的事情。但很遗憾,目前没有这样的信息。于是这位匿名作者另辟蹊径,提出了:NLP学术年龄。如果一位研究人员是第一年在AA上发表,那么这个研究人员的NLP学术年龄是 1 ;如果是在2001年发表第一篇AA论文,并且在2018年发表了最新的AA论文,那么他的学术年龄是18。

首先来看NLP研究人员的在每一年的平均学术年龄分布——

(手机横屏来看更方便)

从上图看出:

1)2018年的平均学术年龄为5.41年;

2)NLP研究也在逐渐走向“老龄化”;

3)直到 2016、2017年,研究人员的平均学术年龄在不断增长,但随后却开始下降了,这个可以从下图中看得更加清楚一点——

(手机横屏来看更方便)

作者统计了每年学术年龄的中位数,1965年至1990年大部分时间的平均年龄为1岁,1991年至2006年大部分时间的平均年龄为2岁,2007年至2015年大部分时间的平均年龄为3岁,此后又回到2岁。这大概是 NLP 领域的“返老还童”吧!

我们还可以从另一个角度来看,作者统计了每年首次发表论文的作者比例,

(手机横屏来看更方便)

在1965年-1985年期间,这个比例逐渐下降;随后到2005年基本稳定在40%-50%之间;然后2005年到2015年则下降到40%上下。这也说明了从1985年之后,NLP社区已经趋于成熟稳定。不过我们有趣的是,从2016年之后,这个比例又开始逐渐上升了。(注:这个比例明显会受到奇偶年的影响)

再详细一点,我们来看 2011 - 2018年,不同学术年龄之间的比例:

其中2018年首次发表论文的作者占到44.93%,而学术年龄不到5年的作者比例占到65%。事实上,该数字自1965年以来一直在稳步下降,在1990年代为60%至70%,2000年代初上升到70%至72%,然后再次下降,直到2010年达到最低值(约60%),并再次稳定上升,直到2018年(65%)。

因此,如果不是去回顾历史的话,我们常常会感觉最近的会议上有大量新人涌入,虽然这是事实,但也是错觉。事实是,现在(2018年),NLP领域的平均学术年龄要比历史上许多时候都要高,年龄大的(因此也是经验丰富的)人所占的比例要更多。

6、对哪种语言的研究最多?

正如维特根斯坦所说:“我的语言将限制我的世界”,对于一个语言群体也是如此。能否将其所使用的自然语言融入到自动系统(例如计算机)中,以及融入程度如何,是决定使用该语言的人群在网络世界中影响力的关键因素。

我们知道,当前的NLP研究主要是针对英语/英语数据集。原因很多,这里不再赘述;这种现象就会造成一个现象,即当研究课题是非英文语言时,往往会在文章标题中显示出语言的名字。

作者据此观察,统计了如下的表格,共有122种语言:

(手机横屏来看更方便)

图中字体较小,但大致是颜色越深,标题中出现的频率越高。从中可以看出中文的研究是所有非英语中频率最高的,且远远高于其他语言(例如法语、日语等)。

注意,这里英语的频率并不是第一,原因是大多针对英语的研究并不会在标题中表示。现在社区中有越来越多的人意识到这是不正确的,这对其他语言是不公平的,因此有人建议应当在所有研究的标题和数据集名称中注明所研究的语言。

参考 AI 科技评论此前文章:

自然语言不等于英语,为什么NLPer应当认识到这个问题,以及该怎么做?

7、哪个领域最热?

从1965年至今,NLP领域的研究热点是怎么变化的呢?这是一个有意思的问题。

由于AA文章往往不要求作者提交关键词,因此要想统计文章的研究方向,最便捷的一种方式就是——从标题中提取关键词。

这里作者做了假设,认为标题内容是和文章研究主题一致的。

Sneha Kulkarni曾表示:“一个好的研究论文标题,应当满足三点,1)用尽可能少的词概括论文的内容;2)吸引到读者的注意力;3)将论文与同一领域的其他论文区分开。”

如果按照这个理想规则,那么使用标题来提取关键词应该会具有一定的代表性。(当然实际上还会有许多要考虑的因素,这里不再赘述)。

因此,作者的假设,再具体一点就是:随着时间的流逝,与该领域相关的标题词的出现频率,将在某种程度上反映出对某个研究领域的广泛兴趣。

那么,在过去这些年里,哪些才是热门呢?

作者统计了从1980年到2019年的论文,如下图:

从术语分布来看,NLP论文标题中最常用的术语是 language,其次是 translation。如果考虑 Bigram 的话,如下图:

最常出现的术语是 machine translation,毫无疑问,机器翻译是NLP领域最受关注的研究领域之一。

我们再来看不同的研究领域随着时间线的变化:

(手机横屏来看更方便)

(注:图中有个小错误,parsing对应于浅绿线)

从这张图中可以看到一个非常有意思的现象,即,在1980年-2008年之间近三十年的时间里,language、translation、parsing在80年代炙手可热,而现在已经远不如当年受欢迎了;而另一方面,neural在80年代经历了一段高潮之后,迅速下降,但近年来却又突破重围,再次超越而出。

我们可以把 parsing 的时间线单拎出来:

真的是不复当年!

另一个有意思的是,可以对比statistical machine, neural machine 和 machine translation 在近40年里的变化趋势:

统计机器经历过一段高潮之后,现在已经基本销声匿迹了;而神经机器则随之崛起。正所谓“沉舟侧畔千帆过,病树前头万木春”!

8、谁的影响力最大?

引用率并不一定能反映一篇文章的质量或重要性,但却是一个重要的参考。作者指出:

“对于为什么有些论文会被大量引用,而有些不会,很难说清,论文被高引,可能是引起了该领域的想象力,也有可能是它们极具创造力,或者开辟了一个新的研究领域,在很大程度上推动了技术发展,检验了令人信服的假设,或者产生了对多数人有用的数据集等等。”

作者从Google Scholar上对4万多篇论文的引用率进行提取,获得了33,051篇论文的引用信息。

下面两张图,是同一个信息,但按照不同的顺序排列的——

第一张,按照相关所有论文的引用总数排列,可以看做机器翻译是总引用率最高的,其次是统计机器、情感分析。

但是这种方式有其弊端,即不同领域,发表的论文数量也不相同,于是作者又按照平均引用率进行排列,这就给我们展示了另外一种视角:

从中可以看出,自动评估才是引用率的王者,语料库和词汇资源才是广受欢迎的宠儿。所以,要想高引,还是要做资源建设呀。

作者别具一格地结合了学术年龄,来分析学术年龄对引用率的影响。

从中可以看出,在论文数量和总引用率上,学术年龄为1年和(10-14)年的是NLP的主力军。

在平均引用上,7年的学术年龄是最好的。倒U形的分布也很好理解,人们普遍会引用年限不是很久远、但也不是刚刚出炉的论文。对于那些学术年龄在35-50之间的,平均引用率则普遍低到可怕。

针对引用率,作者也做了性别分析:

显然,无论是总引用率、总论文数,还是平均引用、中位数引用,男性都要比女性高。(其中的unknown是考虑到有大量来自中国的论文作者,该研究作者不知道如何区分他们的性别)

作者也做了性别相关引用在时间跨度上的分析——

请注意,女性第一作者在ACL的历史上一直是少数派;但是平均而言,她们在早期(1965年至1989年)的论文被引用的次数明显多于同期的男性第一作者。从图中可以看出,这种情况在1990年代有所改变,男性第一作者的论文平均获得了明显更多的引用。引用差距在2000年代大大减少,2010-2016年期间引用差距进一步缩小。

有趣的是,在2000年之后,性别未知的作者几乎弥合了与男性作者之间的差距。作为中国人,笑而不语啊!

9、补充一点

这里仅撷取该研究的部分结论,在作者的论文原文以及博客中有大量更充实的分析内容。感兴趣的读者可以:

1)关注「AI科技评论」微信公众号,后台回复「The State of NLP」下载论文原文; 

2)阅读作者博客:https://medium.com/@nlpscholar(注:需翻墙)


方便交流学习,备注:昵称-学校(公司)-方向,进入DL&NLP交流群。

方向有很多:机器学习、深度学习,python,情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。

记得备注呦

推荐阅读:

【ACL 2019】腾讯AI Lab解读三大前沿方向及20篇入选论文

【一分钟论文】IJCAI2019 | Self-attentive Biaffine Dependency  Parsing

【一分钟论文】 NAACL2019-使用感知句法词表示的句法增强神经机器翻译

【一分钟论文】Semi-supervised Sequence Learning半监督序列学习

【一分钟论文】Deep Biaffine Attention for Neural Dependency Parsing

详解Transition-based Dependency parser基于转移的依存句法解析器

经验 | 初入NLP领域的一些小建议

学术 | 如何写一篇合格的NLP论文

干货 | 那些高产的学者都是怎样工作的?

一个简单有效的联合模型

近年来NLP在法律领域的相关研究工作


让更多的人知道你“在看”

ACL 2020投稿破 3 千,到底有多少人在做 NLP 研究?相关推荐

  1. 数据告诉你,全世界到底有多少人在炒币

    从去年到今年,DeFi可谓是火出了天际. 身处这样的浪潮之中,你是否好奇过,看上去似乎人人都在谈论DeFi,但是究竟有多少人真的参与其中呢? 下面两组数据或许可以给出答案: 谷歌扩展数据显示,3月22 ...

  2. 魔兽怀旧服一个服务器最多人数,《魔兽世界》用数据告诉你,怀旧服到底有多少人排队...

    原标题:<魔兽世界>用数据告诉你,怀旧服到底有多少人排队 作者:NGA-akcjgogo 最近这服务器排队排的简直让人受不了啊 挂着等排队的时候闲着无聊做了在线人数计算: STEP:1 首 ...

  3. 可怕的大学,到底有多少人在校园里浪费青春

    施密德特在耶鲁大学学报是这样嘲笑中国大学的:"它们把经济上的成功当成教育的成功,并竟然引以为傲,这是人类文明史上最大的笑话." 恢复高考33年来,中国共选拔了5438万名大学生. ...

  4. 新周刊:可怕的大学: 到底有多少人在校园里浪费青春

    施密德特在耶鲁大学学报是这样嘲笑中国大学的:"它们把经济上的成功当成教育的成功,并竟然引以为傲,这是人类文明史上最大的笑话." 恢复高考33年来,中国共选拔了5438万名大学生. ...

  5. 【学术相关】2020年AI领域有哪些让人惊艳的研究?

    炼丹笔记干货 时晴,炼丹小仙女 前段时间,Google Brain科学家Barret Zoph表示,他们设计了一个名叫「Switch Transformer」的简化稀疏架构,将语言模型的参数量扩展至 ...

  6. 2020年AI领域有哪些让人惊艳的研究?

    作者:时晴,公众号:炼丹笔记 前段时间,Google Brain科学家Barret Zoph表示,他们设计了一个名叫「Switch Transformer」的简化稀疏架构,将语言模型的参数量扩展至 1 ...

  7. 站长论坛有多少人在做自媒体

    注册了个百家号 头条号 微信公众号  网站发的文章再发这些平台  不能在一棵树上吊死 也顺便抢注了名称 之前做的本地自媒体不好,新闻源不好发,受管制,常被约谈.现在转成本地小程序信息平台 我前几天看到 ...

  8. 目前我国负债超过100万的大概有多少人?

    说到负债,估计大家都不陌生,目前很多中国人都有负债,少的几千块钱,多的上千亿都有. 目前我国居民负债比较高,而且增长较快 十年前,如果说起家庭负债,人们往往用"美国老太太贷款买房提前享受.中 ...

  9. 创新工场提出中文分词和词性标注模型,性能分别刷新五大数据集| ACL 2020​

    出品 | AI科技大本营(ID:rgznai100) 中文分词和词性标注是中文自然语言处理的两个基本任务.尽管以BERT为代表的预训练模型大行其道,但事实上,中文中基于全词覆盖 (whole word ...

  10. ACL 2020三大奖项出炉!知名学者夫妇曾先后获终身成就奖,时间检验奖回溯95年经典著作...

    萧箫 发自 凹非寺 量子位 报道 | 公众号 QbitAI 自然语言处理顶会ACL 2020今年以线上的形式举办,时间从7月5日至7月10日. 但从投稿数量来看,此次会议热度依旧不减,达到了历年最高的 ...

最新文章

  1. gan 总结 数据增强_[NLP]聊一聊,预处理和数据增强技术
  2. 神回答:编程到底难在哪里?
  3. 怎么自学python语言-怎样学好python
  4. 让你分分钟学会Javascript中的闭包
  5. 运行脚本时用SPOOL保存运行结果的问题
  6. 如何在Windows 10的地图应用程序中获取离线地图
  7. java有理数类的封装_java实验报告有理数的类封装.doc
  8. 车载wince系统刷界面ui_UI入门秘笈,你想知道吗?
  9. 网络_Wake-on-Lan(WoL)软件推荐, 让你不在局域网也能实现网络唤醒
  10. html loading 页面加载中(百分比)
  11. 数理统计常用统计函数
  12. iphone5s越狱之后必装
  13. PID调节三个参数的作用
  14. 兄弟连 40 期 临行时刻
  15. 苹果手机换了屏显示无服务器,苹果手机出现“无法验证此 iPhone 屏幕是正品”怎么办...
  16. java.io.FileNotFoundException: File does not exist: hdfs ://sxt/home/sqoop-1.4.6/lib/commons-codec-1
  17. 小学生都能看懂,彻底解决环境搭建难题,一步一截图,再无VMware网络难题
  18. android显示地图代码,Android Studio之高德地图实现定位和3D地图显示(示例代码)
  19. 编译器(Compiler)
  20. java基于微信小程序的驾校报名预约管理系统 uniapp 小程序

热门文章

  1. 51NOD 1449 砝码称重(贪心+进制思想)
  2. 动态添加ImageView 设置setPadding不起作用问题
  3. repeater上EVAL绑定后台方法并且传参数
  4. 放弃微博,继续回来写月经
  5. 山寨式创业 八百客誓做“管理软件终结者 ”
  6. Altium Designer(12): Draftsman
  7. Web开发几种常用工具
  8. RESTful源码笔记之RESTful Framework的基本组件
  9. Inno Setup入门(三)——指定压缩方式
  10. Django 【第一篇】基础