WARP: Word-level Adversarial ReProgramming阅读笔记

个人学习记录,如有不足之处、建议或思想的碰撞感谢大家的指出!

研究基础回顾:

链接:预训练模型adapter的几篇论文概述
链接:parameter-efficient TL for NLP
预训练语言研究的新宠—adapt适配器。简单的理解就是在预训练好的模型下添加新的网络层,训练新的任务时只更新新的网络层的参数,其余共享参数冻结。

论文链接:WARP: Word-level Adversarial ReProgramming
还有里面的实验数据也最好了解一下,有助于论文的理解GLUE

没有全部翻译,仅展示表达思想的部分。较为完整的部分将网盘分享。
链接:https://pan.baidu.com/s/1Sb12Y6ql_ElODzFhA2_O8g
提取码:asdf

摘要:
从训练前的语言模型中迁移学习最近成为解决许多NLP任务的主要方法。 在语言模型之上训练一个或多个特定于任务的层,这是一种将学习转移到多个任务的常见方法,可以最大限度地共享参数。在本文中,我们提出了一种基于对抗性重构的替代方法,它扩展了早期的自动提示生成工作。对抗性重构试图学习任务特定的词嵌入,指示语言模型解决指定的任务。语言模型来解决指定的任务。

1 介绍(重点内容)
基于任务重构的方法的成功表明,语言模型能够在适当的提示下解决各种自然语言处理任务。我们假设他有可能够找到这些提示。换句话说,我们可以发现当我们向输入里添加额外的tokenss时,可以更好的发展语言模型的能力相比于人工设计。
在这篇论文中,介绍了一种寻找最优提示符的新方法。称之为WARP:单词级别的对抗式重构。这个方法受到对抗式重启的启发-在一个输入图片中添加对抗式扰动来重构一个预训练的神经网络来对一项任务进行分类,而不是最初训练的任务。

2 相关研究(重点内容)
2.1 更少的可训练参数
另一种方法被称为Adapters,在transformer每一层引入新的特定任务参数。只有这些新的初始化参数被训练,并可将一般知识和特定任务的知识分离。相比较,我们的方法并没有插入特定任务知识在预训练网络的内部。相反,它聚焦于学习特定任务输入级别的提示。
2.2 任务重构
我们的方法时基于掩码语言模型,但是不像PET,我们聚焦于使用可训练样本发现最好的提示符。这消除了人工设计提示的需要,但是,通过仔细初始化提示,我们的方法也可以从关于任务的类似先验知识中受益。
2.3 对抗型重新编程
对抗型重构被采用在文本分类任务,使用的使LSTM模型【】。他们在单词空间运行,并对一个任务进行的重构模型应用于另一个任务。最新的(more recently),自动提示尝试为大型的语言模型自动去找到提示符,在没有添加任何额外模型参数的情况下。不像自动提示,我们在词嵌入空间使用基于梯度的优化方法,这给予我们的模型更大程度的自由并最终(eventually)在下游任务上有更好的表现
同一时间,【】和【】提出了一种类似的方法,并成功地将其应用于两个文本生成任务。除了不同类型的任务及我们将任务描述为一种对抗性重编程的形式外,他们的方法和我们的方法的主要区别在于,他们使用额外的参数化技巧来稳定训练。

3 WARP
设置和Elsayel(2019)类似,一些NLP特定细节的修改见图二。

论文的目标是发现最好的提示符,它使一个预训练的掩码语言模型对一个训练样本的masked token预测预期的结果在词嵌入空间探寻提示符。换句话说,我们想要去发现提示符的参数,并嵌入化来表示(verbalizer embeddings) [没太明白这里],也就是:

概率为:


3.1 方法
与Elsayed et al相似,我们采用随机梯度下降的方法去发现文本最好的对抗式扰动以最小化任务的训练目标。首先我们插入一个特殊的提示符tokens[P_1],[P_2], …[ P_k],这些tokens可能会出现在句子前面或者后面,取决于提示符模块,并且一个额外的[MASK]token放到输入句子中。
我们设定优化的目标为一个在掩码语言模型的头输出和类别1…C的表达符号(verbalizer tokens=class embedding?) [V_1],[V_2], …[ V_c]的交叉熵损失函数。

仅可训练的参数是词嵌入[P_1],[P_2], …[ P_k]和[V_1],[V_2], …[ V_c]。在这个案例中,我们想在多种任务中训练模型,这些是我们需要存储的惟一特定于任务的参数。语言模型的全部部分(全注意力层,前馈网络层,以及所有其他的词嵌入)仍不改变。
需要注意的是,不同于大多数的对抗攻击,我们并没有更新输入的原始tokens的词嵌入。这遵循elsayed et al的做法,当MNIST或CIFAR图像的像素保持不变时,只更新填充像素。
3.2 实施细节
。。。。。

还有实验、讨论、总结部分这里请看原论文。我是在了解了数据集之后才大概弄清楚了论文提出模型的训练方法。首先这个是有监督的语言训练模型,里面的类别输出[V_1],[V_2], …[ V_c]就是mask或者说文本类别的备选输出的词嵌入。在计算损失的时候是用[P_1],[P_2], …[ P_k]的词嵌入表示与softmax([V_1],[V_2], …[ V_c])进行交叉熵计算。训练过程中只有[P_1],[P_2], …[ P_k]、([V_1],[V_2], …[ V_c]的表示是可以被更新的。

这里面有一段对该论文的简短介绍https://zhuanlan.zhihu.com/p/407144573可以看一看

论文阅读-WARP: Word-level Adversarial ReProgramming相关推荐

  1. 【论文阅读】AD-GCL:Adversarial Graph Augmentation to Improve Graph Contrastive Learning

    目录 摘要 1 引言 2 准备工作 2.1 学习图表示 2.2 GNNs 2.3 互信息最大化 3 对抗性图对比学习 3.1 AD-GCL的理论动机及制定 3.2 通过可学习的边缘扰动实例化AD-GC ...

  2. 论文阅读——Towards Adversarial Retinal Image Synthesis

    论文阅读--Towards Adversarial Retinal Image Synthesis GAN用于视网膜图像合成 Abstract 眼底图像的合成十分具有挑战性,传统方式借助复杂的眼底解剖 ...

  3. 论文阅读 [TPAMI-2022] DE-GAN: A Conditional Generative Adversarial Network for Document Enhancement

    论文阅读 [TPAMI-2022] DE-GAN: A Conditional Generative Adversarial Network for Document Enhancement 论文搜索 ...

  4. 《论文阅读》EMOTIONFLOW: CAPTURE THE DIALOGUE LEVEL EMOTION TRANSITIONS

    <论文阅读>EMOTIONFLOW: CAPTURE THE DIALOGUE LEVEL EMOTION TRANSITIONS 简介 idea 来源 创新点 数据集 未来应用 代码 期 ...

  5. 【论文阅读】一种用于消歧和语义表示的统一模型 A Unified Model for Word Sence Representation and Disambiguation

    [论文阅读]一种用于消歧和语义表示的统一模型 A Unified Model for Word Sence Representation and Disambiguation 问题 解决方案 模型搭建 ...

  6. 论文阅读-Exploring Frequency Adversarial Attacks for Face Forgery Detection(探索用于人脸伪造检测的频率对抗性攻击)

    一.论文信息 论文名称:Exploring Frequency Adversarial Attacks for Face Forgery Detection 会议:CVPR 2022 作者团队: 二. ...

  7. [论文阅读笔记53]2021深度神经方法的关系三元组抽取综述

    1. 题目 Deep Neural Approaches to Relation Triplets Extraction: A Comprehensive Survey Tapas Nayak†, N ...

  8. [论文阅读] (18)英文论文Model Design和Overview如何撰写及精句摘抄——以系统AI安全顶会为例

    <娜璋带你读论文>系列主要是督促自己阅读优秀论文及听取学术讲座,并分享给大家,希望您喜欢.由于作者的英文水平和学术能力不高,需要不断提升,所以还请大家批评指正,非常欢迎大家给我留言评论,学 ...

  9. [论文阅读] (04) 人工智能真的安全吗?浙大团队外滩大会分享AI对抗样本技术

    外滩大会 AI安全-智能时代的攻守道 Deep Learning Security: From the NLP Perspective 浙江大学 <秀璋带你读论文>系列主要是督促自己阅读优 ...

最新文章

  1. DApp基础设施设计:借助Kubernetes、Docker和Parity实现可靠的以太坊事件跟踪
  2. linux下jdk/maven/tomcat
  3. 解决Http响应内容中文乱码问题
  4. codesmith用access的mdb文件作数据源的模板引用
  5. Appendix之setup.py:附录文件内容记录setup.py
  6. json数据交互与@RequestBody
  7. 快速打开unity manual的方式
  8. c#语言文件扩展名,C#应用程序项目文件的扩展名是()。
  9. Mule ESB 学习笔记
  10. [转载]ubuntu 12.10 软件源更新列表
  11. android之socket编程实例
  12. PS2小车—舵机基本原理
  13. mos管 rl_三极管与MOS管工作状态图解分享
  14. Ajax响应前和完成事件 / beforeSend complete / 判断ajax是否执行完毕
  15. python 百度智能完善拆分识别收货人地址
  16. 如果有一天改行不再做IT了,你会做什么事情
  17. 2022嵌入式工程师面经(2023年1月更新)
  18. 生命周期onLoad和onShow的区别
  19. 太魔性!甘肃博物馆这匹马“不太正经”
  20. 基于采样的路径规划算法总结:RRT-Matlab实现

热门文章

  1. 这才是程序员该用的搜索引擎?
  2. Python实现去除图片中的数字水印
  3. MATLAB对三阶魔方建模并进行旋转操作
  4. PHP7新特性-简述
  5. cad修改快捷键_CAD教程:CAD建筑户型图纸还能这么画?
  6. docker创建busybox
  7. Java之数组实现增删改
  8. base+ball=games
  9. 初级,中级,高级程序员需要具备的能力
  10. Visitor模式实践