用于针对DNN中后门攻击的蒸馏对策和中毒数据的去除

之前的工作

现有的防御大多利用后门模型在输入后门数据和正常数据时DNN内部神经元活性分布的不同。

  • [刘, 2018]通过对干净样本输入时神经活性低的神经元进行微调,来除去对后门图像有反应的神经元。

  • [陈, 2018] 通过对输入给定教师标签的训练图像时中间层的活性进行聚类确定了训练数据集中混入的中毒数据。

  • [吉田,2020] 提出了一个不是确定后门图像,而是去除后门语义的方法。在这个方法中利用了DNN模型蒸馏[Hinton, 2015]。即通过训练生成只抽出干净的知识的蒸馏模型来获得不受后门数据影响的模型。

本文,在知识蒸馏的基础上,提出了利用蒸馏模型甄别后门数据的方法。用去除了后门数据的训练集来对蒸馏模型进行再训练,能将蒸馏模型的精度改善到和正常数据训练的模型一样。

论文内容

关于知识蒸馏

Hinton的文章"Distilling the Knowledge in a Neural Network"首次提出了知识蒸馏(暗知识提取)的概念,通过引入与教师网络(teacher network:复杂、但推理性能优越)相关的软目标(soft-target)作为total loss的一部分,以诱导学生网络(student network:精简、低复杂度)的训练,实现知识迁移(knowledge transfer)。

如上图所示,教师网络(左侧)的预测输出除以温度参数(Temperature)之后、再做softmax变换,可以获得软化的概率分布(软目标或软标签),数值介于0~1之间,取值分布较为缓和。Temperature数值越大,分布越缓和;而Temperature数值减小,容易放大错误分类的概率,引入不必要的噪声。针对较困难的分类或检测任务,Temperature通常取1,确保教师网络中正确预测的贡献。硬目标则是样本的真实标注,可以用one-hot矢量表示。total loss设计为软目标与硬目标所对应的交叉熵的加权平均(表示为KD loss与CE loss),其中软目标交叉熵的加权系数越大,表明迁移诱导越依赖教师网络的贡献,这对训练初期阶段是很有必要的,有助于让学生网络更轻松的鉴别简单样本,但训练后期需要适当减小软目标的比重,让真实标注帮助鉴别困难样本。另外,教师网络的推理性能通常要优于学生网络,而模型容量则无具体限制,且教师网络推理精度越高,越有利于学生网络的学习。

softmaxsoftmaxsoftmax计算如下:

S=softmaxtemp(uk)=exp(uk/T)∑j=1Kexp(uj/T)(1)S = softmax_{temp}(u_k) = \frac{exp(u_k / T)}{\sum_{j=1}^K exp(u_j/T)}\tag{1}S=softmaxtemp​(uk​)=∑j=1K​exp(uj​/T)exp(uk​/T)​(1)
其中uku_kuk​是DNN输出层的输出,TTT是温度参数,KKK是分类问题的类数量。

后门攻击防御

(1). 用户获取了包含中毒数据的数据集,并用于训练后门模型fθ′pf_{\theta^{'}}^pfθ′p​;

(2). 用户搜集jjj枚无标签图像数据xjdistx_j^{dist}xjdist​,然后从fθ′pf_{\theta^{'}}^pfθ′p​和xjdistx_j^{dist}xjdist​生成用于蒸馏学习的数据集Dtraindist={xjdist,zjdist},j={1,…,J}D_{train}^{dist}=\{x_j^{dist}, z_j^{dist}\}, j = \{1,\ldots,J\}Dtraindist​={xjdist​,zjdist​},j={1,…,J},这里的zjdistz_j^{dist}zjdist​是由公式1生成;

(3). 用蒸馏学习的数据集训练DtraindistD_{train}^{dist}Dtraindist​蒸馏模型fη′f_{\eta}^{'}fη′​;

(4). 使用测试集DtestD_testDt​est验证fη′f_{\eta}^{'}fη′​;

(5). 部署fη′f_{\eta}^{'}fη′​,这时模型会对正常的输入数据输出正常的结果,而由攻击者加工的触发器图像也会返回正常的结果。

用蒸馏模型甄别中毒数据

方法:将中毒数据分别输入教师模型和学生模型,比较分类结果。

实验结果

数据集 正常数据 后门数据 目的
DtrainD_{train}Dtrain​ 50000 0 基线模型fθf_{\theta}fθ​的训练
DtrianpD_{trian}^pDtrianp​ 49900 100 后门模型fθ′pf_{\theta^{'}}^pfθ′p​的训练
DtraindistD_{train}^{dist}Dtraindist​ 10000 0 蒸馏模型fθ′f_{\theta}^{'}fθ′​的训练
DtestD_testDt​est 10000 0 干净图像的分类精度评价
DtestpD_{test}^pDtestp​ 0 8972∗8972^*8972∗ 触发器图像(正确分类)的评价

图3 基线模型fθf_{\theta}fθ​的测试结果


图4 后门模型 fθ′pf_{\theta^{'}}^pfθ′p​ 的测试结果

图6 DtraindistD_{train}^{dist}Dtraindist​的样本数变化时的测试精度

由图6 可知,随着蒸馏用的干净图像的增加,测试精度被逐渐改善。

蒸馏模型用于甄别中毒数据

实验设置:DtrianpD_{trian}^pDtrianp​ 50000张中包含100张后门图像。
实验结果:

图7 DtraindistD_{train}^{dist}Dtraindist​的样本数变化时,被去除的图像数和正确率

由图7可以看到,随着用于蒸馏训练的数据集数量的增加,中毒数据的候补从5万张缩小到547张,正确率也同样逐渐增加,且后门图像的召回率达到了100%。

使用去除了中毒数据候补的数据集对蒸馏模型fη′′f_{\eta^{'}}^{'}fη′′​进行微调之后,fη′′f_{\eta^{'}}^{'}fη′′​的精度如图6的虚线所示。由图可以看到,样本数6000以上时,物理哪边的测试数据集的分类精度都达到了98.5%以上。

结论

针对DNN的后门攻击,我们使用了蒸馏的对策。在图像分类任务中,我们假定用户能够收集干净的图像,并设想了攻击场景和防御场景。通过将后门攻击模型作为教师模型,用户收集干净图像用于蒸馏训练了蒸馏学生模型。蒸馏模型不仅不对触发器图像分类,而且还与通过干净数据集训练的基线模型保持同等的分类精度。更加地,通过比较蒸馏模型与后门模型对中毒数据集分类的结果的差异,甄别了中毒图像。使用学习数据集的1/5,即10000张蒸馏用的干净图像实验中,中毒数据50000张中的100张后门图像的候选缩小到547张。这之中只包含了18%的中毒图像,即使是人工鉴别也能轻松完成。更进一步地,将去除了候选中毒数据的数据集用于蒸馏模型的微调,分类精度能更进一步地得到改进。特别是,在蒸馏数据集的样本数为6000张以上时,与基线模型的精度差能够缩减到0.1%以下。

参考文献

[Gu 2017] Tianyu Gu, Brendan Dolan-Gavitt, Siddharth Garg: BadNets: Identifying Vulnerabilities in the Machine Learning Model Supply Chain, arXiv, arXiv:1708.06733,2017.

[Liu 2018] Kang Liu, Brendan Dolan-Gavitt, Siddharth Garg: Fine-Pruning: Defending Against Backdooring Attacks on Deep Neural Networks, arXiv, arXiv:1805.12185, 2018

[Chen 2018] Bryant Chen, Wilka Carvalho, Nathalie Baracaldo, Heiko Ludwig, BenjaminEdwards, Taesung Lee, Ian Molloy, Biplav Srivastava: Detecting Backdoor Attacks on Deep Neural Networks by Activation Clustering, arXiv, arXiv:1811.03728, 2018

[吉田 2020] , 吉田 康太,藤野 毅,深層学習におけるバックドア攻撃に対する蒸留を用いたバックドア除去手法の提案,Symposium on Cryptography and Information Security, 2020

[Hinton 2015] Geoffrey Hinton, Oriol Vinyals, Jeff Dean: Distilling the Knowledge in a Neural Network, arXiv, arXiv:1503.02531, 2015

用于针对DNN中后门攻击的蒸馏对策和中毒数据的去除相关推荐

  1. 论文阅读丨神经清洁: 神经网络中的后门攻击识别与缓解

    摘要:本文将带你了解深度神经网络的后门知识,作者提出了一种可靠且可推广的DNN后门攻击检测和缓解系统,这是了解对抗样本和神经网络后门攻击的深度解读. 本文分享自华为云社区<[论文阅读] (02) ...

  2. 论文阅读笔记-后门攻击及防御

    hello,这是鑫鑫鑫的论文分享站,今天分享的文章是Regula Sub-rosa: Latent Backdoor Attacks on Deep Neural Networks,一篇关于后门攻击及 ...

  3. 反知识蒸馏后门攻击:Anti-Distillation Backdoor Attacks: Backdoors Can Really Survive in Knowledge Distillation

    Ge, Yunjie, et al. "Anti-Distillation Backdoor Attacks: Backdoors Can Really Survive in Knowled ...

  4. 联邦学习后门攻击总结(2019-2022)

    联邦学习后门攻击总结(2019-2022) 联邦学习安全性问题框架概览 下表和下图为联邦学习中常见的安全性问题,本文重点关注模型鲁棒性问题中的后门攻击问题. 攻击手段 安全性问题 攻击方与被攻击方 攻 ...

  5. ICCV 2021 | 模型安全不容忽视!特定样本触发器的隐形后门攻击方法

    关注公众号,发现CV技术之美 论文链接:https://openaccess.thecvf.com/content/ICCV2021/papers/Li_Invisible_Backdoor_Atta ...

  6. 使用语义触发器发起不可见后门攻击

    文章目录 Hidden Killer: Invisible Textual Backdoor Attacks with Syntactic Trigger 后门应用背景 基于词法的触发器 形式化文本后 ...

  7. 后门攻击与对抗样本攻击的比较研究

    目录 一.Introduction 1.什么是后门攻击? 2.什么是对抗样本攻击? 3.后门攻击与对抗样本攻击的区别 4.补充数据投毒攻击 二.思维导图 三.应用场景 1.对抗样本攻击应用场景 2.后 ...

  8. 一个高度复杂的APT框架泰姬陵被发现仅用于针对一个中亚外交目标

    卡巴斯基实验室的研究人员发现了一个针对中亚外交机构的新型高度复杂的先进持续威胁(APT)框架.与APT相关的恶意软件样本揭示了一个前所未有的复杂代码库,使得它非常难以检测. 被称为TajMahal(泰 ...

  9. 后门攻击阅读笔记,Graph Backdoor

    论文标题:Graph Backdoor 论文单位:Pennsylvania State University,Zhejiang University 论文作者:Zhaohan Xi,Ren Pang, ...

最新文章

  1. python vs javascript_Python“是”vs JavaScript===
  2. 4、EIGRP配置实验之手动汇总
  3. Pandas获取数据列名称的列表(list):(column list)
  4. Visual Studio 2017开发linux程序使用实例及原理简析
  5. 车品觉 | 大数据的价值:找到别人的“集体智慧”
  6. 优化SQL Server的内存占用之执行缓存
  7. 用Axure开发的一个智能驾驶的app原型
  8. arduino智能浇花系统_创新成果 | 养花神器——智能浇花机
  9. JDK,SDK,API之间的概念汇总
  10. 2022年CXO领导力峰会暨IT东方会技术高管年会
  11. 用Global Mapper软件批处理将dwg转shp
  12. 升级鸿蒙谷歌框架下载,网友Mate 40 Pro+升级鸿蒙2.0:谷歌服务不受影响
  13. 流体力学示例 Python 分析
  14. 《基本无害的计量经济学》第二章:选择性偏误与随机实验
  15. 用Java实现两个Excel表格中数据的对比
  16. 数据库课程设计-KTV点歌系统(VB.net 窗体,MySQL5.5)
  17. 前端工程中常用的文件夹命名(扫盲帖)
  18. 如何计算机使用ssd硬盘启动,如何设置电脑固态硬盘为第一启动
  19. 学习python第五天
  20. 如何去除PDF中的水印,PDF去水印方法

热门文章

  1. interview--- 帽子戏法
  2. 陈老师排课软件12A(正式版)
  3. 基于Nios-II的流水灯实验
  4. html5子代选择器,伪类、子代、毗邻选择器 — IE6已逝,这些优秀的选择器你怎能不用?...
  5. IpadOS15.4系统通用控制开启
  6. 如何评估企业人力资源价值--人力资源产出指标
  7. 国际数据保护日,数据安全谁来守护?
  8. 深入理解计算机视觉中的损失函数
  9. kali linux网络扫描~网络扫描
  10. 北京机动车“单双”限行:市府温情、市民支持