论文目的

对比学习是自监督学习在NLP中的应用，本文使用对抗方法生成对比学习需要的训练样本对，对比学习提升了对抗训练的泛华能力，对抗训练也增强了对比学习的鲁棒性，提出了两种结构：supervised contrastive adversarial learning (SCAL) 和 unsupervised SCAL (USCAL)，即有监督的对比对抗训练和无监督的对比对抗训练（USCAL是不是改为UCAL更合适？）。使用监督任务的loss生成对抗训练的实例，无监督任务带来对比损失。在多个数据集上进行测试，效果良好

本文方法

Adversarial Training And Adversarial Attack Methods

数据集D=(X,Y)D=(X,Y)D=(X,Y)
映射fθ:X→Yf_{\theta}:X \to Yfθ:X→Y
满足δ∗=arg⁡max⁡δLce(x+δ,y;θ).s.t.∣δ∣p<ε\delta^*=\arg\max_{\delta}L_{ce}(x+\delta,y;\theta).s.t.|\delta|_p<\varepsilonδ∗=argmaxδLce(x+δ,y;θ).s.t.∣δ∣p<ε
FGSM:
xadv=x+δ=x+ε∗sign(ΔxLce(x,y;θ)).s.t.∣δ∣p<εx^{adv}=x+\delta=x+\varepsilon*sign(\Delta xL_{ce}(x,y;\theta)).s.t.|\delta|_p<\varepsilonxadv=x+δ=x+ε∗sign(ΔxLce(x,y;θ)).s.t.∣δ∣p<ε
FGM:
xadv=x+δ=x+ε∗(ΔxLce(x,y;θ)∣ΔxLce(x,y;θ)∣2).s.t.∣δ∣p<εx^{adv}=x+\delta=x+\varepsilon*(\frac{\Delta xL_{ce}(x,y;\theta)}{|\Delta xL_{ce}(x,y;\theta)|_2}).s.t.|\delta|_p<\varepsilonxadv=x+δ=x+ε∗(∣ΔxLce(x,y;θ)∣2ΔxLce(x,y;θ)).s.t.∣δ∣p<ε

Self-supervised Contrastive Learning

自监督训练中，样本是无标签的，同一个样本经过两种数据增强方式得到两个样本，一个优秀的模型应该使得正样本更相近，离其它样本更远。
对比学习的loss是infoNCE
Lct=−log⁡exp⁡(sim(xip,xiq/τ))∑k=1Ksim(xip,xkq/τ))L_{ct}=-\log\frac{\exp(sim(x^p_i,x^q_i/\tau))}{\sum_{k=1}^Ksim(x^p_i,x^q_k/\tau))}Lct=−log∑k=1Ksim(xip,xkq/τ))exp(sim(xip,xiq/τ))
xip,xiqx^p_i,x^q_ixip,xiq是一对正样本；xkqx^q_kxkq是负样本；
本文在有监督和无监督的框架中使用不同的转换方法。在有监督的训练中，使用对抗样本作为原始样本的正样本；而无监督的训练中，利用第一个dropout来生成正对，对抗样本也会被用来作为正对。在infoNCE中，主要的问题是两个数据增强的不同，所以我们使用对抗攻击产生不同的正对，在模型中对抗式的训练。

Supervised Contrastive Adversarial Learning

样本xix_ixi先经过encoder生成hih_ihi，利用有监督的训练计算损失Lce=−1N∑i=1N∑c=0Cyi,clog⁡(p(yi,c∣hi))L_{ce}=-\frac{1}{N}\sum_{i=1}^N\sum_{c=0}^Cy_{i,c}\log(p(y_{i,c}|h_i))Lce=−N1∑i=1N∑c=0Cyi,clog(p(yi,c∣hi))
然后生成对抗性扰动并按照FGM批量添加到每个样本中的词向量中（FGSM是类似的）
xiadv=xiemb+δi=xiemb+ε∗(ΔxLce(x,y;θ)∣ΔxLce(x,y;θ)∣2)x^{adv}_i=x^{emb}_i+\delta_i=x^{emb}_i+\varepsilon*(\frac{\Delta xL_{ce}(x,y;\theta)}{|\Delta xL_{ce}(x,y;\theta)|_2})xiadv=xiemb+δi=xiemb+ε∗(∣ΔxLce(x,y;θ)∣2ΔxLce(x,y;θ))
生成的新xiadvx^{adv}_ixiadv重新经过encoder生成hiadvh^{adv}_ihiadv，两个hiadvh^{adv}_ihiadv和hih_ihi经过pooling层生成ziadvz^{adv}_iziadv和ziz_izi计算对比损失
Lct=−log⁡exp⁡(sim(zi,ziadv/τ))∑k=1Ksim(zi,zk/τ))L_{ct}=-\log\frac{\exp(sim(z_i,z^{adv}_i/\tau))}{\sum_{k=1}^Ksim(z_i,z_k/\tau))}Lct=−log∑k=1Ksim(zi,zk/τ))exp(sim(zi,ziadv/τ))
SCAL的总损失是
Ltotal=12(Lce(x,y)+Lce(xadv,y))+αLct(x,xadv)L_{total}=\frac{1}{2}(L_{ce}(x,y)+L_{ce}(x^{adv},y))+\alpha L_{ct}(x,x^{adv})Ltotal=21(Lce(x,y)+Lce(xadv,y))+αLct(x,xadv)

Unsupervised Contrastive Adversarial Learning

首先使用simCSE中的dropout生成第一步的正负样本（xemb1xemb2x^{emb1}\ x^{emb2}xemb1 xemb2）
利用第一步的对比损失生成对抗扰动并按照FGM批量添加到每个样本中的词向量中（FGSM是类似的）
xiadv=xiemb1+δi=xiemb1+ε∗(ΔxLcl(xemb1,xemb2;θ)∣ΔxLcl(xemb1,xemb2;θ)∣2)x^{adv}_i=x^{emb1}_i+\delta_i=x^{emb1}_i+\varepsilon*(\frac{\Delta xL_{cl}(x^{emb1},x^{emb2};\theta)}{|\Delta xL_{cl}(x^{emb1},x^{emb2};\theta)|_2})xiadv=xiemb1+δi=xiemb1+ε∗(∣ΔxLcl(xemb1,xemb2;θ)∣2ΔxLcl(xemb1,xemb2;θ))
USCAL的总损失是
Ltotal=Lct(xemb1,xemb2)+αLct(xemb1,xadv)L_{total}=L_{ct}(x^{emb1},x^{emb2})+\alpha L_{ct}(x^{emb1},x^{adv})Ltotal=Lct(xemb1,xemb2)+αLct(xemb1,xadv)

EXPERIMENTS

SCAL和USCAL在大型预训练语言模型下对不同任务测试性能

Training Details

BERT和Roberta中[CLS]上面加pooling层和分类层

datasets

有监督：GLUE、AG’s News and TREC
无监督：SentEval
稳健性：ANLI

models

bert（base和large）、roberta（base和large）
对比模型：SIMCSE、FreeLB、SMART、ALUM、InfoBERT、

Experiment Result on SCAL

消融试验

Experiment Result on USCAL

阅读感官

第一次接触对比+对抗做自监督，第一眼看到结果觉得好惊讶，看完消融试验觉得又是符合预期的，后面要多补充一下对抗做NLP的知识

Simple Contrastive Representation Adversarial Learning for NLP Tasks相关推荐

文献阅读：SimCSE：Simple Contrastive Learning of Sentence Embeddings
文献阅读:SimCSE:Simple Contrastive Learning of Sentence Embeddings 1. 文献内容简介 2. 主要方法介绍 3. 主要实验介绍 1. STS ...
Kaiming He论文阅读笔记三——Simple Siamese Representation Learning
Kaiming He大神在2021年发表的Exploring Simple Siamese Representation Learning,截至目前已经有963的引用,今天我们就一起来阅读一下这篇自监 ...
CS224d: Deep Learning for NLP Lecture1 听课记录
重点提炼自然语言处理的一般处理过程/NLP levels 初始输入数据分为语音和文本两大类,对于语音一般进行语音分析转换成文本(语音识别),对于文本一般进行词条化处理.而后两者处理过程类似,即依次进 ...
NLP之路-Deep Learning in NLP （一）词向量和语言模型
from: http://licstar.net/archives/328 这篇博客是我看了半年的论文后,自己对 Deep Learning 在 NLP 领域中应用的理解和总结,在此分享.其中必 ...
NLP之路-Deep Learning for NLP 文章列举
From: http://www.xperseverance.net/blogs/2013/07/2124/ 慢慢补充大部分文章来自: http://www.socher.org/ http: ...
Deep Learning in NLP （一）词向量和语言模型
这篇博客是我看了半年的论文后,自己对 Deep Learning 在 NLP 领域中应用的理解和总结,在此分享.其中必然有局限性,欢迎各种交流,随便拍. Deep Learning 算法已经在图像和音 ...
Transfer Learning for NLP with TensorFlow Hub
文章目录 Transfer Learning for NLP with TensorFlow Hub Overview Project Task 2: Setup your TensorFlow an ...
Deep Learning for NLP 文章列举
一.大部分文章来自: 原文:http://www.xperseverance.net/blogs/2013/07/2124/ http://www.socher.org/ http://deeplea ...
DivCo: Diverse Conditional Image Synthesis via Contrastive Generative Adversarial Network
模式崩溃是cGAN较为重要的问题,以往工作大多数都致力于关注latent code和生成图像之间的关系而没有关注通过不同latent code生成的图像之间的关系.MSGAN(mode seeking ...

Simple Contrastive Representation Adversarial Learning for NLP Tasks