一起读论文 | 高质量的同行评审意见应该写哪些内容及如何组织？

导读：今天分享一篇美国东北大学NLP实验室发表在NAACL 2019上的研究论文《Argument Mining for Understanding Peer Reviews》。与《一起读论文|挖掘同行评审意见的价值》一样，这篇论文也研究同行评审过程。但与之不同的是，这篇论文主要从Argument Mining的角度来理解同行评审意见的内容与结构。在这篇论文中，作者发布了AMPERE数据集，用最先进的模型在该数据集上进行了Proposition分割与分类两个任务的实验，对ACL、ICLR、NeurIPS和UAI等机器学习与自然语言处理领域顶会的审稿意见的内容及结构进行了详细分析，得出了许多非常有意思的结论。对于喜欢数据挖掘特别是Argment Mining的朋友们来说，非常值得一读。

研究背景

仅仅在2015年，花费在同行评审上的时间就达到了将近6340万小时。同行评审机制的价值不言而喻，所有领域的学术文献都需经过同行专家的评审后才能被发表在相关期刊或会议集上。换句话说，同行评审机制保证了研究工作的质量。那么，同行评审意见的一般结构是怎样的？一份高质量的同行评审意见又具有哪些特点？截止目前，很少有相关的研究工作关注分析同行评审意见的内容与结构，甚至评估它的质量。

研究动机及目的

作者认为，同行评审意见跟论述写作非常像，包含了能表达审稿专家对此研究的评估与解释的论述性的proposition。所以，自动分析出审稿意见中的proposition及其对应的类型对理解审稿意见的构成非常有帮助。在这篇论文中，作者主要在Argument Mining的框架下对同行评审意见的内容与结构进行研究。下图是一份截取自ICLR的审稿意见的样例：

在这篇论文中，作者主要关注两个研究任务：（1）proposition segmentation: 检测出是proposition的基本的论述性话语；（2）proposition classification：给proposition打上相应的标签（如evaluation, request）

数据集

因为没有标注好的同行评审意见的数据集，作者创建了AMPERE（Argument Mining for PEer REviews）。作者从机器学习和自然语言处理领域的会议（ICLR, UAI, NeurIPS, ACL）上收集了将近14.2K个评审意见，并标注了其中的400个评审意见总共10386条proposition。Proposition的类型有Evaluation，Request，Fact，Reference，Quote以及Non-Arg。

针对数据标注的可信度，作者计算了所有类别下每条审稿意见的标注者间信度指标unitized Kripendorf’s $\alpha_U$ 分数的平均值。而针对在proposition级别上的数据标注的可信度，作者进一步计算了所有类别下的Cohen’s $k$ 分数。

实验及结果

作者将proposition分割与分类任务都当做序列标注（Sequence Labeling）问题看待。采用主流的最优模型在AMPERE数据集上进行实验分析。320个审稿意见共计7999条proposition用作训练集，80个审稿意见共计2387条proposition用作测试集。在训练集上采用5折交叉验证。

数据预处理：句子分割采用Stanford CoreNLP工具，手动将审稿意见中的变量、数学公式、URL链接、引用或参考替换为相应的特殊字符（<VAR>、<EQN>、<URL>、<CIT>）。

模型训练：(1) CRF：采用Okazaki实现的CRFSuite，主要对 $l_1$ 与 $l_2$ 正则器的系数 $C_1$ 与 $C_2$ 进行调优；(2) BiLSTM-CRF：采用Reimers和Gurevych实现的BiLSTM-CRF，额外采用ELMo Embedding，最优模型有2层隐藏层，每层100个结点，每层的dropout概率为0.5。(3) SVM: 采用在Lightening库中实现的SAGA。(4) CNN：采用Kim实现的CNN，过滤器窗口大小为3,4,5，每个128个特征map，dropout概率为0.5，用100维大小的word2vec词嵌入。

1. Proposition Segmentation

2. Proposition Classification

分析与讨论

作者利用训练好的BiLSTM-CRF模型在未标注的AMPERE数据上识别Proposition及其类型。

1. Proposition Usage by Venue and Rating

作者发现，ACL和NeurIPS会使用比ICLR和UAI更多的Proposition，而且打1分或5分的审稿意见一般会有更少的proposition。

作者发现，ACL的审稿意见包含了比其他会议更多的Request更少的Fact。特别地，相比较于ICLR的81.5%和UAI的84.7%，94.6%的ACL审稿意见至少有一个Request。

作者发现，评分最高的审稿意见倾向使用很少的Evaluation和Reference，而3分(borderline)至4分(weak accept)的审稿意见则会包含更多的Request。

2. Proposition Structure

Argumentative Structure（论述性的结构）通常是一种支持（support）与攻击（attack）的关系，揭示了proposition是如何被组织成为上下文连贯的文本。作者绘制了不同类型的proposition之间相关转换的概率，对角线上的高概率表明了类型相同的proposition更有可能地被组织在一起。

作者发现，Quote类型除外，一般情况下Quote类型的proposition后面跟着Evaluation。

作者进一步分析了不同会议下不同类型的Proposition之间的转换概率矩阵。

作者发现，一般情况下，一种类型的proposition后面更有可能跟着同样类型的proposition。但是，NeurIPS中从reference类型的proposition到non-arg类型的proposition的转换概率比其他三个会议更加突出。对该问题的进一步分析发现，这主要是因为模型把许多格式化的头部字段错误地预测为了reference类型，比如"For detailed review guidelines, see "，它们通常后面跟着诸如"Comments to the author"的被正确预测为non-arg类型的proposition。

3. Proposition Type and Content

作者还分析了不同类型下常常使用的显著性词语，以及不同会议的显著性词语的差异。

对于Evaluation类型，所有的会议倾向于关注clarity与contribution。ICLR更多地讨论network，NeurIP更多地关注equations。ACL会议则频繁地对examples进行request。

4. Review Length by Venue and Rating

ACL和NeurIPS比ICLR和UAI有更长的审稿意见，而且打极端分数的（1分或5分）的审稿意见一般比较短，这与proposition数量的趋势是一致的。

想要了解更多的自然语言处理最新进展、技术干货及学习教程，欢迎关注微信公众号“语言智能技术笔记簿”或扫描二维码添加关注。