背景和重要性

对于非全局触发器(只对特定模型和输入奏效)。为了写公式方便起见,我们假设触发器是在正常输入之前。
我们用f表示特定模型,t表示正常输入,tadvt_{adv}tadv​表示触发器,L表示损失函数,D表示输入数据的分布。
argmintadvEt∈D[L(ytarget,f(tadv;t))]argmin_{t_{adv}} E_{t \in D} [L(y_{target}, f(t_{adv;t}))] argmintadv​​Et∈D​[L(ytarget​,f(tadv;t​))]
为了发动攻击,我们假设对模型f有白盒子访问权限。

如果是全局触发器,情况就更糟。
输入无关的标记序列引导模型产生一个特定的预测,而且这样的输入接在任意合法输入之前之后都能产生类似效果,这样就相当于允许任何人(不需要太多行业知识)发动攻击。

攻击选题

文字分类

情感分析

为了避免特定形容词(比如“极好的”)的直接干扰,我们将这些词加入黑名单。
通过梯度下降法不断迭代,我们最后发现“zoning tapping fiennes”能将对正样本原本86.2%的正确率降至29.1%。

自然语言推理

使用基于GloVe的DA和ESIM的来生成集成攻击模型,而DA-ELMo被留出当作黑盒子来验证攻击转移的难易程度。
不清楚NLU的,可以参考一下这篇英文博客。

阅读理解

我们选择的目标答案是“杀死美国人民”,“唐纳德·特朗普”,“2014年1月”,“纽约”分别表示为什么、谁、何时和何地的问题的触发器。这些词是随机选取的,选取同类词可以达到相似的效果。

成功的条件是模型生成的答案与触发器完全吻合。数据来源是SQuAD。我们在QANet、ELMo、Char三个黑箱模型上测试了触发器,发现有一定程度上的可移植性。

文本生成

触发器是“TH PEOPLEMan goddreams Blacks”。文本生成了充满种族歧视的言论。注意,并不是由于其中包含了Black而导致的。

针对GPT-2 117M的攻击也能移植到GPT-2 345M上。

触发器分析

人为因素

NLP数据集的构建可能会导致数据集偏差或“人为因素”。例如,Gururangan et al.(2018)和Poliak et al.(2018)表明SNLI中的假设词和标签之间存在虚假的相关性。我们根据每个标签的点向互信息(PMI)对所有假设词进行排名,发现触发词在排行榜是确实名列前茅。

触发器在将neutral和contradiction的预测引导到entailment基本上是不成功的。我们怀疑对entailment的偏见是由于当前提和假设在词汇上有高度重叠时引起的。

与SNLI不同,SQuAD触发器不能完全归因于token关联。从排名前10的PMI单词中随机选择单词,生成围绕目标答案范围的单词。随机选择20个并记录最佳触发序列的分数。使用PMI选词的效果只是比基线略好一些。

问题类型匹配

我们将SQuAD中的每一个问题都简化为疑问词,比如“战争什么时候发生的?” → “什么时候?”,并应用触发器。对“谁?”、“什么时候?”、“在哪里?”的提问,攻击成功率是100%;对“为什么?”的问题,是96.0%。这表明,模型会根据特定的问题类型来选择目标答案,正中触发器的圈套。

token顺序、位置和移除

对于触发器而言,不是任何token顺序都能成功,不过能让触发器成功的顺序有很多种。

触发器放在开头或者结尾的效果是类似的。

移除触发器中的某些词会降低攻击成功率。但是有时候反倒提升了对黑盒子模型的攻击成功率。这说明对原模型(GloVe BiDAF)过拟合严重。

未来方向

增强触发器的可解释性,寻找符合语法的触发器。

Reference

  • Universal Adversarial Triggers for Attacking and Analyzing NLP, Eric Wallace et al., 2019/08

攻击NLP模型:通用对抗触发器入门相关推荐

  1. 主动防御多种Deepfake模型,北大王选所在AAAI22上提出跨模型通用对抗水印CMUA-Watermark...

    关注公众号,发现CV技术之美 本文分享AAAI 2022论文『CMUA-Watermark: A Cross-Model Universal Adversarial Watermark for Com ...

  2. 通过风格转化向NLP模型注入隐形后门攻击

    文章目录 USENIX:Hidden Trigger Backdoor Attack on NLP Models via Linguistic Style Manipulation 介绍 语言风格后门 ...

  3. 【每周CV论文推荐】基于GAN的对抗攻击,适合阅读那些文章入门?

    欢迎来到<每周CV论文推荐>.在这个专栏里,还是本着有三AI一贯的原则,专注于让大家能够系统性完成学习,所以我们推荐的文章也必定是同一主题的. 在图像分类的对抗攻击任务中,如果在图片上添加 ...

  4. Stanford NLP 解读 ACL 2018 论文——用于调试 NLP 模型的语义等价对立规则

    Stanford NLP 解读 ACL 2018 论文--用于调试 NLP 模型的语义等价对立规则 本文作者:王雪佩 2019-02-23 20:13 专题:ACL 2018 导语:新鲜出炉的论文解读 ...

  5. 【NLP】NLP中的对抗训练

    作者 | 王嘉宁@华师数据学院 整理 | NewBeeNLP https://blog.csdn.net/qq_36426650/article/details/122807916 对抗训练本质是为了 ...

  6. 新书推荐 |《AI安全之对抗样本入门》

    新书推荐 <AI安全之对抗样本入门> 点击上图了解及购买 AI安全三部曲作者兜哥又一力作,对抗样本的入门知识,AI安全必备. 内容简介 本书系统介绍对抗样本的基本原理,从相关的背景知识开始 ...

  7. ACL最佳论文提出最新NLP模型测试方法,最佳论文提名也不可小觑

    译者 | 刘畅 出品 | AI科技大本营(ID:rgznai100) 导读:近日,ACL 2020公布了最佳论文奖,另有两篇最佳论文荣誉提名奖也各自提出了解决NLP领域问题的创新方法. 最佳论文:Be ...

  8. 【NLP】一文搞懂NLP中的对抗训练

    本文主要串烧了FGSM, FGM, PGD, FreeAT, YOPO, FreeLB, SMART这几种对抗训练方法,希望能使各位大佬炼出的丹药更加圆润有光泽,一颗永流传 简介 对抗训练是一种引入噪 ...

  9. 【NLP】使用NLP检测和对抗AI假新闻

    作者 | MOHD SANAD ZAKI RIZVI 编译 | VK 来源 | Analytics Vidhya 概述 由AI生成的假新闻(神经假新闻)对于我们的社会可能是一个巨大的问题 本文讨论了不 ...

最新文章

  1. 1-6-RHEL7用户管理和如何恢复root密码
  2. Base:一种 Acid 的替代方案
  3. python 删除文件、目录_python脚本删除文件及删除文件目录的方法
  4. raft引入no-op解决了什么问题
  5. jquery event 封装的源源分析
  6. 阿里云服务器mysql默认密码_阿里云服务器修改MySQL初始密码---Linux学习笔记
  7. Netty自娱自乐之协议栈设计
  8. 进程的静止和活动状态
  9. Session.Abandon和Session.Clear有何不同?
  10. 访问量中 pv uv ip的区别
  11. Unity独立游戏大集合
  12. 点餐系统+小程序常见问题解决(2022年最新版)
  13. 让 ESS 更灵活的新特性:UserData KeyPair RamRole Tags
  14. 基于词典方法和机基于器学习方法的中文情感倾向分析(Web)
  15. app installation failed 的问题的解决过程
  16. elasticsearch—索引与检索(一)
  17. 【互联网人的英语】背景知识对于理解文章究竟有多重要?
  18. nodejs 判断是文件夹还是文件
  19. 实用的shell脚本合集
  20. iOS11 iPhone X 适配指南

热门文章

  1. 渗透测试辅助工具--在线版
  2. php_标准类型-学习笔记
  3. 运维工具SaltStack
  4. 输入字符串中含有该字符的个数
  5. 自学PHP教程之每天学一个函数(一):isset()
  6. 垃圾回收器算法之引用计数器法
  7. 智领先机 惠普推出家庭信息中心HIC
  8. [转] 如何从多份Java/JEE工作中进行抉择
  9. mysql相关操作_mysql相关操作(2)
  10. Vivado中使用逻辑分析仪ILA