攻击NLP模型:通用对抗触发器入门
背景和重要性
对于非全局触发器(只对特定模型和输入奏效)。为了写公式方便起见,我们假设触发器是在正常输入之前。
我们用f表示特定模型,t表示正常输入,tadvt_{adv}tadv表示触发器,L表示损失函数,D表示输入数据的分布。
argmintadvEt∈D[L(ytarget,f(tadv;t))]argmin_{t_{adv}} E_{t \in D} [L(y_{target}, f(t_{adv;t}))] argmintadvEt∈D[L(ytarget,f(tadv;t))]
为了发动攻击,我们假设对模型f有白盒子访问权限。
如果是全局触发器,情况就更糟。
输入无关的标记序列引导模型产生一个特定的预测,而且这样的输入接在任意合法输入之前之后都能产生类似效果,这样就相当于允许任何人(不需要太多行业知识)发动攻击。
攻击选题
文字分类
情感分析
为了避免特定形容词(比如“极好的”)的直接干扰,我们将这些词加入黑名单。
通过梯度下降法不断迭代,我们最后发现“zoning tapping fiennes”能将对正样本原本86.2%的正确率降至29.1%。
自然语言推理
使用基于GloVe的DA和ESIM的来生成集成攻击模型,而DA-ELMo被留出当作黑盒子来验证攻击转移的难易程度。
不清楚NLU的,可以参考一下这篇英文博客。
阅读理解
我们选择的目标答案是“杀死美国人民”,“唐纳德·特朗普”,“2014年1月”,“纽约”分别表示为什么、谁、何时和何地的问题的触发器。这些词是随机选取的,选取同类词可以达到相似的效果。
成功的条件是模型生成的答案与触发器完全吻合。数据来源是SQuAD。我们在QANet、ELMo、Char三个黑箱模型上测试了触发器,发现有一定程度上的可移植性。
文本生成
触发器是“TH PEOPLEMan goddreams Blacks”。文本生成了充满种族歧视的言论。注意,并不是由于其中包含了Black而导致的。
针对GPT-2 117M的攻击也能移植到GPT-2 345M上。
触发器分析
人为因素
NLP数据集的构建可能会导致数据集偏差或“人为因素”。例如,Gururangan et al.(2018)和Poliak et al.(2018)表明SNLI中的假设词和标签之间存在虚假的相关性。我们根据每个标签的点向互信息(PMI)对所有假设词进行排名,发现触发词在排行榜是确实名列前茅。
触发器在将neutral和contradiction的预测引导到entailment基本上是不成功的。我们怀疑对entailment的偏见是由于当前提和假设在词汇上有高度重叠时引起的。
与SNLI不同,SQuAD触发器不能完全归因于token关联。从排名前10的PMI单词中随机选择单词,生成围绕目标答案范围的单词。随机选择20个并记录最佳触发序列的分数。使用PMI选词的效果只是比基线略好一些。
问题类型匹配
我们将SQuAD中的每一个问题都简化为疑问词,比如“战争什么时候发生的?” → “什么时候?”,并应用触发器。对“谁?”、“什么时候?”、“在哪里?”的提问,攻击成功率是100%;对“为什么?”的问题,是96.0%。这表明,模型会根据特定的问题类型来选择目标答案,正中触发器的圈套。
token顺序、位置和移除
对于触发器而言,不是任何token顺序都能成功,不过能让触发器成功的顺序有很多种。
触发器放在开头或者结尾的效果是类似的。
移除触发器中的某些词会降低攻击成功率。但是有时候反倒提升了对黑盒子模型的攻击成功率。这说明对原模型(GloVe BiDAF)过拟合严重。
未来方向
增强触发器的可解释性,寻找符合语法的触发器。
Reference
- Universal Adversarial Triggers for Attacking and Analyzing NLP, Eric Wallace et al., 2019/08
攻击NLP模型:通用对抗触发器入门相关推荐
- 主动防御多种Deepfake模型,北大王选所在AAAI22上提出跨模型通用对抗水印CMUA-Watermark...
关注公众号,发现CV技术之美 本文分享AAAI 2022论文『CMUA-Watermark: A Cross-Model Universal Adversarial Watermark for Com ...
- 通过风格转化向NLP模型注入隐形后门攻击
文章目录 USENIX:Hidden Trigger Backdoor Attack on NLP Models via Linguistic Style Manipulation 介绍 语言风格后门 ...
- 【每周CV论文推荐】基于GAN的对抗攻击,适合阅读那些文章入门?
欢迎来到<每周CV论文推荐>.在这个专栏里,还是本着有三AI一贯的原则,专注于让大家能够系统性完成学习,所以我们推荐的文章也必定是同一主题的. 在图像分类的对抗攻击任务中,如果在图片上添加 ...
- Stanford NLP 解读 ACL 2018 论文——用于调试 NLP 模型的语义等价对立规则
Stanford NLP 解读 ACL 2018 论文--用于调试 NLP 模型的语义等价对立规则 本文作者:王雪佩 2019-02-23 20:13 专题:ACL 2018 导语:新鲜出炉的论文解读 ...
- 【NLP】NLP中的对抗训练
作者 | 王嘉宁@华师数据学院 整理 | NewBeeNLP https://blog.csdn.net/qq_36426650/article/details/122807916 对抗训练本质是为了 ...
- 新书推荐 |《AI安全之对抗样本入门》
新书推荐 <AI安全之对抗样本入门> 点击上图了解及购买 AI安全三部曲作者兜哥又一力作,对抗样本的入门知识,AI安全必备. 内容简介 本书系统介绍对抗样本的基本原理,从相关的背景知识开始 ...
- ACL最佳论文提出最新NLP模型测试方法,最佳论文提名也不可小觑
译者 | 刘畅 出品 | AI科技大本营(ID:rgznai100) 导读:近日,ACL 2020公布了最佳论文奖,另有两篇最佳论文荣誉提名奖也各自提出了解决NLP领域问题的创新方法. 最佳论文:Be ...
- 【NLP】一文搞懂NLP中的对抗训练
本文主要串烧了FGSM, FGM, PGD, FreeAT, YOPO, FreeLB, SMART这几种对抗训练方法,希望能使各位大佬炼出的丹药更加圆润有光泽,一颗永流传 简介 对抗训练是一种引入噪 ...
- 【NLP】使用NLP检测和对抗AI假新闻
作者 | MOHD SANAD ZAKI RIZVI 编译 | VK 来源 | Analytics Vidhya 概述 由AI生成的假新闻(神经假新闻)对于我们的社会可能是一个巨大的问题 本文讨论了不 ...
最新文章
- 1-6-RHEL7用户管理和如何恢复root密码
- Base:一种 Acid 的替代方案
- python 删除文件、目录_python脚本删除文件及删除文件目录的方法
- raft引入no-op解决了什么问题
- jquery event 封装的源源分析
- 阿里云服务器mysql默认密码_阿里云服务器修改MySQL初始密码---Linux学习笔记
- Netty自娱自乐之协议栈设计
- 进程的静止和活动状态
- Session.Abandon和Session.Clear有何不同?
- 访问量中 pv uv ip的区别
- Unity独立游戏大集合
- 点餐系统+小程序常见问题解决(2022年最新版)
- 让 ESS 更灵活的新特性:UserData KeyPair RamRole Tags
- 基于词典方法和机基于器学习方法的中文情感倾向分析(Web)
- app installation failed 的问题的解决过程
- elasticsearch—索引与检索(一)
- 【互联网人的英语】背景知识对于理解文章究竟有多重要?
- nodejs 判断是文件夹还是文件
- 实用的shell脚本合集
- iOS11 iPhone X 适配指南