复旦大学邢晓渝：无监督句法分析模型里面的监督信号

⬆⬆⬆ 点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入！

细粒度情感分析，也叫做基于方面的情感分析是情感分析中的一个子任务。虽然现有的模型在该任务上的效果很好，但是现有的测试集并不能够用来研究模型是否基于目标方面的情感词而做出的正确预测。本次分享从现有数据集存在的问题出发，提出了简单而有效地测试样本构建方法，丰富了原有的测试集，从而评测并分析了现有模型的鲁棒性。

本期AI TIME PhD直播间，我们有幸邀请到复旦大学研究生邢晓渝为我们进行分享，本次分享的主题是——无监督句法分析模型里面的监督信号。

邢晓渝：复旦大学自然语言处理组2018级在读研究生，导师张奇教授。研究方向有细粒度情感分析、命名实体识别，多项研究工作发表在国际会议ACL、EMNLP上。

一、自动生成数据的方法介绍

当一个模型展现了很好的表现的时候，它不一定是强壮的或是具有很强的鲁棒性。那么在ABSA模型中，什么样的模型是鲁棒的呢？我们认为一个具有鲁棒性的细粒度情感分析模型应该具有一下三个特征：

1.在句子中哪些词语是方面，即aspects；

2.它应该知道哪些词是情感词；

3.最重要的一点，它应该知道对于我们要预测的目标方面来说哪些情感词是来修饰它的。

现有的深度学习模型在ABSA模型上面都取得了非常好的效果，然而这些模型是否真的明白方面和情感词之间的对应关系呢？

接下来看几个典型的例子：

1)“Tasty burgers，crispy fries.”：在这个句子中burgers是我们需要预测的一个方面词，它的情感极性是正向的，ABSA模型也会将它预测为正向的。

2)“Tasty burgers， soggy fries”：在这个句子中fries的情感极性是负向的，而我们需要预测的burgers的情感极性是正向的，在这个情况下ABSA模型会感到一些困惑。

3)“Tasty burgers， soggy fries， and worst of all the service.”：在这个句子中所有的非目标方面都是负向的，ABSA模型在这个例子中预测为负向，预测失败。

因此我们对现有模型的鲁棒性提出了疑问，一个模型能够对什么程度的测试样本进行正确的预测。

1)第一个问题，如果我们反转了这个目标的情感极性，那么模型是否也会相应的改变它的预测结果呢？

2)第二个问题是，如果在句子中所有非目标方面的情感极性都是和目标方面的情感极性相反的，那么模型是否还能预测正确呢？

3)第三个问题是，如果我们在句子当中添加了很多和目标方面相反的非目标方面的情感表示的话，那么模型是否还能预测正确呢？

基于以上这三个问题，我们认为当且仅当我们能够对这三个问题都回答正确的时候，这个模型才能够称之为鲁棒的。

因此我们基于这三个问题先去探究了一下现有的ABSA模型的数据集。第一个数据集是Twitter 2014数据集，第二个是Semeval 2014 Laptop数据集，第三个是Semeval 2014 Restaurant数据集。

从图中可以发现，在数据集中大部分的测试数据，其目标方面的情感和非目标方面的情感极性都是相同的。因此仅仅只有途中蓝色的一小部分的数据可以被用来回答我们之前提出来的问题。然而当我们在这个小测试子集上进行测试的时候发现，原先最好的模型在Laptop上的表现从78.53%下降到了59.32%，在Restaurant数据集上的表现从原有的86.70%下降到了63.93%。

这样大幅度的下降就表明了现有的模型是过度的依赖于非目标方面的情感词，进而做出的预测。也就是说，它并不知道哪些情感词在修饰目标方面。

二、数据集的对比分析

负采样

因此我们就提出了一个自动生产测试集的框架。上图中，在原有的测试集中有句子“Tasty burgers，and crispy fries.”，在这句当中有一个目标方面burgers，它情感极性是正向的，对于fries来说，它是非目标方面，它的情感极性是正向的。模型的任务是预测burgers的情感极性，如果模型对于burgers预测正确的话，它是依赖于tasty这个单词还是crispy这个单词亦或者是其他的一些线索呢？我们其实想要探究这个问题。我们提出了三种生成的策略，来生成一个probing set，

第一个策略叫做REVTGT。在REVTGT这个策略当中，我们把目标方面的情感极性反转，就把tasty变成了terrible，同时也把情感极性从positive变成了negative。

第二个策略叫做REVNON。在这个策略当中我们没有修改目标方面的情感，我们修改的是非目标方面的情感词，我们把fries从crispy变成了soggy，这样的情感极性就是负向的。

第三个策略叫做ADDDIFF。我们在句子末尾添加了一些和目标反面情感极性相反的非目标方面的表达，在这个例子中我们添加了“but poorest service ever”。

接下来我们看一下REVTGT的具体细节。

1)第一个我们举得例子是“It’s light and easy to transport.”，在这个句子当中目标方面是transport，它有两个情感词light和easy，我们获得了一些light和easy的反义词heavy和difficult并且替代它们。

2)但是不是所有词语都有反义词，第二个例子“The menu changes seasonally”中changes这个词，因此我们在这个词前面加了一个否定词，变成了does not change。

3)第三个例子是“The food is good, and the décor is nice.”，我们在修改情感词的同时也面临一些可读性的问题，例如将nice改为nasty，就需要将and改为but。

第二个策略是REVNON，在这里我们遇到了两种情况，第一种情况是非目标方面的情感极性与目标方面的情感极性相同，在这种情况下我们需要反转它的情感极性。第二种情况是非目标方面的情感极性与目标方面的情感极性相反，这种情况下情感就需要加强。

举个例子“It has great food at a reasonable price, but the service is poor.”，在这个例子当中，我们的目标方面是负的，它的情感是正向的，我们有非目标方面price和service，因为price由reasonable修饰，所以它的情感方向是正向的。所以我们将其变成了unreasonable，对于service而言其原本情感就是负向的，所以我们添加了一个程度副词extremely使其加深。

第三个策略是ADDDIFF，首先我们从训练集中抽取了Aspect的表示，构建了一个AspectSet。然后我们随机从AspectSet中抽取1~3个这样的表示，添加到了句子末尾。这些表示需要满足两个条件，第一个是它的情感极性必须和目标极性相反，第二个是这个方面在之前的句子中是没有提到过的，就比如例子中“Tasty burgers, crispy fries, but poorest service ever!”添加了“but poorest service ever”在句子末尾。这个策略就保证了句子的整体情感从原来的正向变成了负向。

接下来我们根据这三种策略构建了新的数据集，ARTS。我们将ARTS数据集与原有的数据集进行了对比，我们发现ARTS数据集比原有的数据集更大一些，并且它的标签也更加的平衡。第二点是ARTS数据集更有挑战性。

我们衡量了三个点，第一个点是在每个句子当中Aspect的数量，我们发现在ARTS数据集中的数量要比原有数据集的数量更多。第二点是在测试集当中，和目标方面情感极性相反的非目标方面数量不少于1的数量的比例远远的上升。第三个是在句子当中和目标方面情感极性相反的非目标方面的数量比原本的数据集超出了许多。因此我们的数据集更具有挑战性。

三、实验结果讨论与分析

接下来是实验结果。我们提出了新的评价方式ARS，其计算方式是正确的单元数除以总的单元数。一个单元包括了原有的句子和经过三种扩充策略后的句子，一共包含四个句子。当且仅当我们的模型在这四句话中都预测正确，才能判断对这个单元的预测正确。左图展现了9种模型在原本测试集和现有的测试集上的表现的差异。可以看到大部分模型新的数据集ARTS上表现下降非常的多，但是基于BERT的三种模型CapsBERT，BERT，BERT-PT，其相对而言是比较鲁棒的，它们下降的幅度要比其他模型要低。

接下来，分解来看三种策略对模型精确度的影响。REVTGT策略使得模型的平均表现下降最多。这是因为REVTGT策略需要模型能够精确的识别到修饰目标方面的词语，一旦有所偏差就会导致精确度下降较多。第二点是ADDDIFF策略上面，ADDDIFF会导致非BERT模型下降的比BERT模型更多，这就表明非BERT模型对句子长度更加敏感，在句子后添加了许多和目标方面相反的无关词语之后可能会对非BERT模型表现影响较大。

接下来我们也探索了几种策略的变种，首先我们探究了联合REVNON和ADDDIFF这两种策略，我们发现联合之后会使得模型下降的程度更大。第二种是在ADDDIFF策略中对句子末尾添加更多的aspects，探究其对于测试精确度的影响。这里使用了三个模型，第一个是BERT-PT，是鲁棒性最好的；第二个是GCN，鲁棒性位于中位的；第三个是BERT-Sent，是鲁棒性最差的。我们发现在句子末尾添加的aspect越多，它的精确度也就越低。但是BERT-PT相对于其他两个模型表现仍然要高出许多。

负采样

三、如何提升模型的鲁棒性

之后我们也分析了怎么有效的建模aspects来提升它的鲁棒性。在这个表格中，所有的模型是按照它们的鲁棒性高低排序的，在Laptop数据中，AttLSTM的鲁棒性是最差的，BERT-PT的鲁棒性是最好的，从表中可以看出基于BERT的模型要比非BERT的模型鲁棒性要好，在非BERT模型中GCN和TD-LSTM的鲁棒性是最好的。我们认为这是它们在模型建模中建模了aspects的位置信息，所以它的鲁棒性要比其他没有建模的要高一些。

我们也探究了怎样的训练策略可以提升模型的鲁棒性。我们探究了两个点：

第一个是在更加复杂的数据集上训练，比如MAMS数据集，这个数据集与Restaurant同源但是比其更为复杂。我们发现在更为复杂的数据集上训练会对鲁棒性提升有所提升。

第二个是利用了对抗训练，也就是把我们之前提出的三种策略同样的应用于训练集当中，然后在再在ARTS测试集上进行测试，我们发现这种策略能够最大程度提升模型的鲁棒性。

总结

第一点，我们提出了一个简单但是有效的方法，来探测现有模型在ABSA模型上的鲁棒性。

第二点，我们提升了现有的测试集，将SemEval 2014测试集效果提升了294%，将Restaurant测试集提升了315%。

第三点，我们探测了现有的9个ABSA模型的鲁棒性，并探测了然后提升它们鲁棒性的方法。

论文数据及代码：

https://github.com/zhijing-jin/ARTS_TestSet

论文链接：

https://arxiv.org/pdf/2009.07964.pdf

负采样

整理：闫昊

排版：杨梦蒗

审稿：邢晓渝

AI TIME欢迎AI领域学者投稿，期待大家剖析学科历史发展和前沿技术。针对热门话题，我们将邀请专家一起论道。同时，我们也长期招募优质的撰稿人，顶级的平台需要顶级的你，请将简历等信息发至yun.he@aminer.cn！

微信联系：AITIME_HY

AI TIME是清华大学计算机系一群关注人工智能发展，并有思想情怀的青年学者们创办的圈子,旨在发扬科学思辨精神，邀请各界人士对人工智能理论、算法、场景、应用的本质问题进行探索，加强思想碰撞，打造一个知识分享的聚集地。

更多资讯请扫码关注

（直播回放：https://b23.tv/WJcJaw）

（点击“阅读原文”下载本次报告ppt）

复旦大学邢晓渝：无监督句法分析模型里面的监督信号相关推荐

复旦大学邢晓渝：细粒度情感分析中模型的鲁棒性研究
⬆⬆⬆ 点击蓝字关注我们 AI TIME欢迎每一位AI爱好者的加入! 细粒度情感分析,也叫做基于方面的情感分析是情感分析中的一个子任务.虽然现有的模型在该任务上的效果很好, ...
石昊悦：无监督句法分析模型里面的监督信号
⬆⬆⬆ 点击蓝字关注我们 AI TIME欢迎每一位AI爱好者的加入! 我们分析了最近的无监督句法分析模型,发现来自验证集的监督信号在模型表现上起到很大作用:另一方面,在极少 ...
中国地图出版社教材发展中心副编审-邢晓凤
女中豪杰邢晓凤来源: 中国测绘报时间: 2008-03-07 15:16 [大中小] 中国地图出版社教材发展中心副编审邢晓凤,自1994年起一直从事历史教学地图和历史教科书的研究和编辑工作.1 ...
文章分享《Supervised Contrastive Learning》自监督对比学习和有监督对比学习的区别
文章题目 Supervised Contrastive Learning 作者: Prannay Khosla Piotr Teterwak Chen Wang Aaron Sarna 时间:2020 ...
无监督学习与监督学习_有监督与无监督学习
无监督学习与监督学习 If we don't know what the objective of the machine learning algorithm is, we may fail to ...
何恺明一作，刷新7项检测分割任务，无监督预训练完胜有监督
点击我爱计算机视觉标星,更快获取CVML新技术本文转自机器之心. 机器之心报道机器之心编辑部 Facebook AI 研究团队的何恺明等人提出了一种名为动量对比(MoCo)的无监督训练方法.在 7 ...
依存分析：基于序列标注的中文依存句法分析模型实现
一.前言 1.中文依存句法分析二.实战 1.数据源数据采用清华大学语义依存网络语料作为训练集,同时在开发集上进行测试. (1)语料预处理原语料库如下: 1 坚决坚决 a ad _ 2 方式 2 ...
【科普】一文弄懂监督式学习、非监督式学习以及强化式学习
1. 引言大部分的机器学习入门课当中,一开始也最基础的观念就是机器学习的三类方式,它们分别是监督式学习(Supervised learning).非监督式学习(Unsupervised learni ...
监督式学习、非监督式学习、强化学习
Table of Contents 广义上来说,有3种机器学习算法 1. 监督式学习(Supervised Learning) 2. 非监督式学习(Unsupervised Learning) 3. ...
移动4g信号显示无服务器,自己动手解决室内4g信号差信号放大器一般由主机室内天线...
导读:聊到信号,大多数人都知道,有人问室内4g信号不好怎么办,事实上联通室内4g信号不好怎么办,这到底是咋回事?其实怎样加强室内手机信号呢,下面小编整理了自己动手解决室内4g信号差,一起来看看吧. 自 ...

复旦大学邢晓渝：无监督句法分析模型里面的监督信号

复旦大学邢晓渝：无监督句法分析模型里面的监督信号相关推荐

最新文章

热门文章