导读:今天分享一篇美国东北大学NLP实验室发表在NAACL 2019上的研究论文《Argument Mining for Understanding Peer Reviews》。与《一起读论文|挖掘同行评审意见的价值》一样,这篇论文也研究同行评审过程。但与之不同的是,这篇论文主要从Argument Mining的角度来理解同行评审意见的内容与结构。在这篇论文中,作者发布了AMPERE数据集,用最先进的模型在该数据集上进行了Proposition分割与分类两个任务的实验,对ACL、ICLR、NeurIPS和UAI等机器学习与自然语言处理领域顶会的审稿意见的内容及结构进行了详细分析,得出了许多非常有意思的结论。对于喜欢数据挖掘特别是Argment Mining的朋友们来说,非常值得一读。

研究背景

仅仅在2015年,花费在同行评审上的时间就达到了将近6340万小时。同行评审机制的价值不言而喻,所有领域的学术文献都需经过同行专家的评审后才能被发表在相关期刊或会议集上。换句话说,同行评审机制保证了研究工作的质量。那么,同行评审意见的一般结构是怎样的?一份高质量的同行评审意见又具有哪些特点?截止目前,很少有相关的研究工作关注分析同行评审意见的内容与结构,甚至评估它的质量。

研究动机及目的

作者认为,同行评审意见跟论述写作非常像,包含了能表达审稿专家对此研究的评估与解释的论述性的proposition。所以,自动分析出审稿意见中的proposition及其对应的类型对理解审稿意见的构成非常有帮助。在这篇论文中,作者主要在Argument Mining的框架下对同行评审意见的内容与结构进行研究。下图是一份截取自ICLR的审稿意见的样例:

在这篇论文中,作者主要关注两个研究任务:(1)proposition segmentation: 检测出是proposition的基本的论述性话语;(2)proposition classification:给proposition打上相应的标签(如evaluation, request)

数据集

因为没有标注好的同行评审意见的数据集,作者创建了AMPERE(Argument Mining for PEer REviews)。作者从机器学习和自然语言处理领域的会议(ICLR, UAI, NeurIPS, ACL)上收集了将近14.2K个评审意见,并标注了其中的400个评审意见总共10386条proposition。Proposition的类型有Evaluation,Request,Fact,Reference,Quote以及Non-Arg。

针对数据标注的可信度,作者计算了所有类别下每条审稿意见的标注者间信度指标unitized Kripendorf’s α U \alpha_U αU分数的平均值。而针对在proposition级别上的数据标注的可信度,作者进一步计算了所有类别下的Cohen’s k k k分数。

实验及结果

作者将proposition分割与分类任务都当做序列标注(Sequence Labeling)问题看待。采用主流的最优模型在AMPERE数据集上进行实验分析。320个审稿意见共计7999条proposition用作训练集,80个审稿意见共计2387条proposition用作测试集。在训练集上采用5折交叉验证。

数据预处理:句子分割采用Stanford CoreNLP工具,手动将审稿意见中的变量、数学公式、URL链接、引用或参考替换为相应的特殊字符(<VAR>、<EQN>、<URL>、<CIT>)。

模型训练:(1) CRF:采用Okazaki实现的CRFSuite,主要对 l 1 l_1 l1l 2 l_2 l2正则器的系数 C 1 C_1 C1C 2 C_2 C2进行调优;(2) BiLSTM-CRF:采用Reimers和Gurevych实现的BiLSTM-CRF,额外采用ELMo Embedding,最优模型有2层隐藏层,每层100个结点,每层的dropout概率为0.5。(3) SVM: 采用在Lightening库中实现的SAGA。(4) CNN:采用Kim实现的CNN,过滤器窗口大小为3,4,5,每个128个特征map,dropout概率为0.5,用100维大小的word2vec词嵌入。

1. Proposition Segmentation

2. Proposition Classification

分析与讨论

作者利用训练好的BiLSTM-CRF模型在未标注的AMPERE数据上识别Proposition及其类型。

1. Proposition Usage by Venue and Rating


作者发现,ACL和NeurIPS会使用比ICLR和UAI更多的Proposition,而且打1分或5分的审稿意见一般会有更少的proposition。

作者发现,ACL的审稿意见包含了比其他会议更多的Request更少的Fact。特别地,相比较于ICLR的81.5%和UAI的84.7%,94.6%的ACL审稿意见至少有一个Request。

作者发现,评分最高的审稿意见倾向使用很少的Evaluation和Reference,而3分(borderline)至4分(weak accept)的审稿意见则会包含更多的Request。

2. Proposition Structure

Argumentative Structure(论述性的结构)通常是一种支持(support)与攻击(attack)的关系,揭示了proposition是如何被组织成为上下文连贯的文本。作者绘制了不同类型的proposition之间相关转换的概率,对角线上的高概率表明了类型相同的proposition更有可能地被组织在一起。

作者发现,Quote类型除外,一般情况下Quote类型的proposition后面跟着Evaluation。

作者进一步分析了不同会议下不同类型的Proposition之间的转换概率矩阵。

作者发现,一般情况下,一种类型的proposition后面更有可能跟着同样类型的proposition。但是,NeurIPS中从reference类型的proposition到non-arg类型的proposition的转换概率比其他三个会议更加突出。对该问题的进一步分析发现,这主要是因为模型把许多格式化的头部字段错误地预测为了reference类型,比如"For detailed review guidelines, see ",它们通常后面跟着诸如"Comments to the author"的被正确预测为non-arg类型的proposition。

3. Proposition Type and Content

作者还分析了不同类型下常常使用的显著性词语,以及不同会议的显著性词语的差异。

对于Evaluation类型,所有的会议倾向于关注clarity与contribution。ICLR更多地讨论network,NeurIP更多地关注equations。ACL会议则频繁地对examples进行request。

4. Review Length by Venue and Rating


ACL和NeurIPS比ICLR和UAI有更长的审稿意见,而且打极端分数的(1分或5分)的审稿意见一般比较短,这与proposition数量的趋势是一致的。


想要了解更多的自然语言处理最新进展、技术干货及学习教程,欢迎关注微信公众号“语言智能技术笔记簿”或扫描二维码添加关注。

一起读论文 | 高质量的同行评审意见应该写哪些内容及如何组织?相关推荐

  1. 《徐汇区推动数字广告产业高质量发展的扶持意见》的通知

    徐文旅[2022]62号 区各相关委.办.局,各街道.华泾镇,有关单位: <徐汇区推动数字广告产业高质量发展的扶持意见>经 2022 年区第十七届政府第19次常务会议审议通过,现印发给你们 ...

  2. 高质量的工程代码为什么难写

    之所以想起写这篇文章,是因为最近看到的一个著名的开源项目在内部使用时的各种问题,不得不说,很多的开源的东西思想是不错的,但离真正工程化都有不小的距离,所以没什么商业公司采用的开源产品如果要引入的话一定 ...

  3. 《关于进一步推动徐汇区人工智能产业高质量发展的扶持意见》的通知

    徐科委规[2022]2号 区各有关委.办.局,各街道.华泾镇,有关单位: <关于进一步推动徐汇区人工智能产业高质量发展的扶持意见>经2022年区第十七届政府第11次常务会议和十一届区委37 ...

  4. 资源论文非系统论文,NLP 圈同行评审存在的六大固化误区!

    来源:AI科技评论 本文约5500字,建议阅读10+分钟 苹果是苹果,橘子是橘子,两者都有自己的优点. NLP中的大多数成功案例都是关于监督学习或半监督学习的.从根本上说,这意味着我们的解析器.情感分 ...

  5. 论文审稿怎么审?审稿意见怎么写?(含案例)

    文章目录 一.论文审稿 二.审稿意见的案例 一.论文审稿 审稿是对学术论文进行评估和提供反馈意见的过程.以下是审稿的一般步骤和写意见的一些建议: 阅读全文:在开始审稿之前,通读整篇论文,了解作者的研究 ...

  6. 高斯原型网络原论文高质量翻译

    论文地址:Gaussian Prototypical Networks for Few-Shot Learning on Omniglot 文章目录 摘要 1 引言 1.1 Few-shot lear ...

  7. 谈谈 css 的各种居中——读编写高质量代码有感

    css 的居中有水平居中和垂直居中,这两种居中又分为行内元素居中和块级元素居中,不同的居中用不同方法. 水平居中 1.行内元素水平居中(文本,图片) 给父层设置 text-align:center; ...

  8. 【css】谈谈 css 的各种居中——读编写高质量代码有感

    css 的居中有水平居中和垂直居中,这两种居中又分为行内元素居中和块级元素居中,不同的居中用不同方法. 水平居中 1.行内元素水平居中(文本,图片) 给父层设置 text-align:center; ...

  9. ACM Fellow发文抨击「同行评审」作弊:有「门道」的作者带飞,垃圾论文也能轻松中顶会...

    贾浩楠 发自 凹非寺 量子位 报道 | 公众号 QbitAI 美国知名AI学术大牛,在ACM官网刊文,直指AI学术界最尖锐的问题: 论文盲审,存在严重作弊行为. 措辞之严厉,揭露之详细,学术圈罕见. ...

最新文章

  1. 2019.04.07 装饰器介绍
  2. 关于格雷码的规律、转换
  3. make的常见错误信息
  4. hdu 5248(二分+贪心)
  5. T5 PEGASUS:开源一个中文生成式预训练模型
  6. Pandas学习笔记1(序列部分)
  7. KVM虚拟机禁止上网(路由转发)
  8. 练习-前程无忧数据爬取
  9. 2020蓝桥杯省内模拟赛C++B组1-8(详细解析,看完就会)
  10. matlab IIR滤波
  11. stata15中文乱码_如何解决 Stata 14 的中文乱码问题
  12. python怎么调用类中的函数_类中的python函数调用
  13. MikroTik(RouteOS)有线路由器快速设置教程
  14. 您需要来自administrator 的权限才能对此文件进行更改
  15. python中成语接龙游戏_python——成语接龙小游戏
  16. 快速查询出中通快运物流信息,将信息导出EXCEL表格
  17. TypeScript 2
  18. 数据库有哪些类型?如何根据应用场景选择?终于有人讲明白了
  19. package.json文件中的main属性使用
  20. 10个迷惑新手的Cocoa,Objective-c开发难点和问题 39|MX21k

热门文章

  1. 阿里云弹性计算开发面试
  2. 液压断路器-BA系列设备用断路器规格型号说明
  3. 新一期的送书活动,无条件抽奖,速来~
  4. NSA局长:美军网络部队已处于战备状态
  5. 浙大计算机专业偏什么方向,2017考研浙大计算机经验教训帖
  6. 代理IP服务商到底怎么选?
  7. 计算机应用助理工程师证书查询,有助理工程师的证书吗?怎么查询助理工程师职称?...
  8. FreeMarker 数字格式处理
  9. 嵌入式开发学习笔记5-了解单片机中的特殊功能寄存器(寄存器B、累加器A和程序状态字PSW)
  10. 摇骰子小程序源码_喝酒聚会怕冷场,就找摇塞子小程序!