Stronger Data Poisoning Attacks Break Data Sanitization Defenses

关于data sanitization的介绍

数据消毒?A data sanitization method is the specific way in which a data destruction program or file shredder overwrites the data on a hard drive or other storage device. 提前一步清除异常数据

缺乏中毒数据时,可以获得匹配正确数据的参数,这里展示的是由线性支持向量机在系统数据上获得的决策边界

第二幅图是添加了中毒数据Dp可以很明显的改变学习获得的参数

右:通过丢弃D = Dc∪Dp中的异常值,然后对剩余的进行训练,防御者可以降低攻击者的效率。

出发点(motivation):

问题的重要性:基于外部世界数据训练的机器学习模型可能会被数据中毒攻击破坏,这种攻击会将恶意点注入模型的训练集。针对这些攻击的一种常见防御方法是数据消毒:首先在训练模型之前过滤掉异常的训练点。但是数据中毒攻击存在可能会破坏数据消毒防御的方法

以前工作有何不足:

我们在实验中测试的现有数据中毒方法都无法规避我们考虑的数据消毒防御,之前的研究表明,针对规避数据清理而优化的攻击实际上可以规避某些类型的防御(意味着局限性很大,很多都不能避免)

场景及假设:

Concentrated attacks(集中攻击):有毒数据往往会聚集在几个区域从而显得正常。

假设对抗者不会丢弃任何干净数据

中心思想:

我们开发了三种新的攻击,它们都可以绕过广泛的数据消毒防御=》包括基于最近邻的常用异常检测器、训练损失和奇异值分解(singular-value decomposition SVD)

基于最近邻的常用异常检测器:无监督异常检测算法通常是设计某种策略为每一个数据样本分配相应的异常值得分,根据得分进行排序(得分越高,异常的程度越大)

训练损失不断增大,测试损失不断减小

奇异值分解对数据的处理,可以使用小得多的数据集表示原始数据集,去除了了噪声和冗余信息,以此达到优化数据提高结果的目的。

具体方案:

优化的影响攻击:

影响攻击:我们的目标是在每个Dp(Poisoned data)上执行梯度上升,使测试损失最大。为此,我们需要计算计算各个测试各个数据点的梯度
优化的攻击:

Concentrated attacks集中攻击。原先的有两个问题:它很慢(我们必须计算梯度,并在每次迭代中执行一轮投影步骤),并且产生的中毒点常彼此相距很远(由于初始化的差异),使得它们很容易被检测为异常 我们可以修改算法,使其只包含两个不同的点(i+,1)和(i-,-1)的副本,每个类一个,而不会降低攻击效率。在每次迭代中,我们只需要计算梯度并进行两次投影。

Randomized rounding with the LP relaxation 随机四舍五入与LP松弛???

本来两个问题:圆点互相间隔远,同时也可能会违反约束原则

使用线性规划松弛linear programming relaxation和重复的点:启发式来缓解这些问题

KKT攻击,它解决了影响攻击的两个缺点:计算开销和对局部极小值的敏感性。

KKT攻击是基于观察攻击者优化困难的问题,

攻击分为两部分:1)利用快速启发式寻找诱饵参数θ 2)发现中毒数据。这种攻击的名称来自于在步骤2中使用Karush-Kuhn-Tucker (KKT)一阶优化必要条件

(1) using fast heuristics to find decoy parameters θdecoy that we want the defender to learn, and then 2) finding poisoned data Dp such that the defender is indeed tricked into learning the decoy parameters θdecoy. The name of this attack comes from the use of the Karush-Kuhn-Tucker (KKT) first-order necessary conditions for optimality in step 2.)

Improved Min-Max Attack

它改进了我们之前的min-max基本攻击。我们min-max攻击依赖于相同的第五节诱饵参数,但与前面两种方法攻击不同的是,它自然处理多层次问题,不需要可行集的凸性。其缺点是假设干净数据和的测试数据是相同的分布我们首先回顾一下min-max-basic攻击,正如Steinhardt等人(2017)所介绍的那样。

Min-Max Attack:

min-max-basic攻击的目标是最大化结合损失,并通过反复添加存在于可行范围内的最高损失点来达到这一目的

该算法自动处理类平衡,因为在每次迭代中,它选择添加一个正或负的点;因此,它可以处理多类攻击,不像KKT或影响攻击。此外,与影响攻击不同的是,它避免了昂贵的双层优化问题,这使得它足够快地运行在更大的数据集上,

改进的方法通过使用诱饵参数(decoy parameter)来自上面提及的方法

Stronger Data Poisoning Attacks Break Data Sanitization Defenses相关推荐

  1. 【RS-Attack】Data Poisoning Attacks to Deep Learning Based Recommender Systems NDSS‘21

    Data Poisoning Attacks to Deep Learning Based Recommender Systems NDSS'21 首个在基于深度学习的推荐系统中进行投毒攻击的研究.文 ...

  2. 【RS-Attack】攻击MF:Data Poisoning Attacks on Factorization-Based Collaborative Filtering (NIPS‘16)

    Data Poisoning Attacks on Factorization-Based Collaborative Filtering NIPS'16 针对矩阵分解的投毒攻击.文章针对两个矩阵分解 ...

  3. Data Poisoning Attacks to Deep Learning Based Recommender Systems论文解读

    1 摘要 在这项工作中,作者对基于深度学习的推荐系统的数据中毒攻击进行了首次系统研究.攻击者的目标是操纵推荐系统,以便向许多用户推荐攻击者选择的目标项目.为了实现这一目标,作者将精心设计的评分注入到推 ...

  4. [阅读笔记1]Data Poisoning Attacks to Deep Learning BasedRecommender Systems

    个人总结:本文主要通过构造一个毒药模型--用于预测假用户的评分项目,从而构造m个假用户,将假用户注入到推荐系统中,达到影响推荐系统对普通用户的推荐项目(让一个项目能尽可能多的出现在普通用户的推荐列表中 ...

  5. AI Security2-投毒攻击(Poisoning Attacks)

    接着上一章写的:https://blog.csdn.net/weixin_42468475/article/details/111684668 这是目录 1 数据投毒攻击是什么? 2 数据中毒的根本原 ...

  6. False data injection attacks and the insider threat in smart systems

    智能系统中的虚假数据注入攻击和内部威胁 一.摘要 二.介绍 三.实验评估 (一)实验设置 (二)攻击实施 (三)攻击分析 (四)预防措施 四.结论 一.摘要 工业控制系统(ICS)构成智能网络和智能城 ...

  7. 【COPOD】Suppressing Poisoning Attacks on Federated Learning for Medical Imaging

    Suppressing Poisoning Attacks on Federated Learning for Medical Imaging 抑制针对医学影像联邦学习的毒化攻击 论文 Abstrac ...

  8. 每周大数据论文(二)Data Mining with Big Data

    日常声明:论文均来自于谷歌学术或者其他国外付费论文站,博主只是读论文,译论文,分享知识,如有侵权联系我删除,谢谢.同时希望和大家一起学习,有好的论文可以推荐给我,我翻译了放上来,也欢迎大家关注我的读论 ...

  9. 【Qt】QPixmap加载图片报错:Corrupt JPEG data: premature end of data segment Didn‘t expect more than one scan

    1.问题描述 在使用QPixmap加载图片时失败,错误信息如下 Corrupt JPEG data: premature end of data segment Didn't expect more ...

最新文章

  1. java selenium_java+selenium,40行代码完成支付宝账单爬取
  2. git查看各个branch之间的关系图
  3. php background-color:,background-color属性怎么用
  4. linux apt qt下载,Linux如何安装 apt-get 软件管理工具
  5. mysql语句中事务可靠性_MYSQL中的事务
  6. unix网络编程 的环境配置
  7. 《架构之美》学习随笔:好的架构
  8. 将数组前n个和后m-n个整体逆置的实现
  9. python xgboost安装_win7 64 python2 xgboost安装
  10. node+bower+gulp+webpack初见
  11. Python风格总结:数据结构
  12. 视频压缩知识介绍(一)——评价标准及算法原理
  13. 金山逍遥网 sersync 服务器实时镜像同步方案
  14. 直接学python3_新手应该学python2还是python3?
  15. element-ui的密码验证
  16. 一起学爬虫(Python) — 03
  17. Linux sed替换中文引号为英文引号
  18. 麻雀要革命2 第44节:怦然心动的星月童话
  19. Java调用aliyun OCR图文识别
  20. git命令出现fatal: Unable to create 'xxx/.git/index:File exists.问题

热门文章

  1. Win8.1重装win7或win10中途无法安装
  2. Qt5开发从入门到精通——第六篇一节( 图像与图片——位置相关函数 )
  3. ubuntu electron-rebuild 我的成功方法
  4. LINUX设备驱动之设备模型一kobject
  5. 深度学习中,偏置(bias)在什么情况下可以要,可以不要?
  6. 地球物理勘探技术类毕业论文文献有哪些?
  7. TOUGH2系列建模方法及在CO2地质封存、水文地球化学、地热、地下水污染等领域中的实践技术应用
  8. 小米5s+刷+android+8.0,小米MIUI10技术难点已突破,小米5S系列升级安卓8.0看来稳了...
  9. ChinaSkills-高职组网络系统管理大赛-WinSer 2019 互联网网卡检测服务笔记
  10. c语言海报,C语言 竞选海报