重磅MIT开源人工智能算法评估和理解对抗Logit配对的稳健性摘要:我们评估了对抗性Logit Pairing的稳健性,这是最近针对广告范例提出的防御措施。 我们发现,使用Adversarial Logit Pairing训练的网络在目标对抗性攻击下达到0.6%的正确分类率,这是一种考虑防御的威胁模型。 我们简要概述了所考虑的防御和威胁模型/声明,以及对我们攻击的方法和结果的讨论,这可能会提供有关ALP易受敌对攻击影响的原因的见解。

重磅MIT开源人工智能算法评估和理解对抗Logit配对的稳健性贡献:总结一下,本说明的贡献如下:
1.Robustness:在Kannan等人指定的白盒目标攻击威胁模型下。 [9],我们将正确的防御分类率上限定为0.6%(表1)。我们还进行有针对性和无针对性的攻击,并表明攻击者的成功率分别达到98.6%和99.9%(图1,2)。
2.Formulation:我们分析ALP损失函数并将其与Madry等人的对比。 [10],指出了与稳健优化目标的几个不同之处(第4.1节)。
3.Loss landscape:我们通过观察损失景观和对抗性攻击轨迹来分析​​ALP引起的损失景观(第4.2节)。

重磅MIT开源人工智能算法评估和理解对抗Logit配对的稳健性简介:众所周知,神经网络和机器学习模型容易受到对抗性的例子的影响,低幅度的扰动会引起特定的和非预期的行为[11,3]。抵御这些对抗性攻击具有重要意义和价值。不幸的是,许多提议的防御措施使其声称在相应的威胁模型中被新攻击无效[4,8,5,6,2,12,1]。一个显着强大的防御是Madry等人的防守。 [10],提出了一种基于“稳健优化”的防御对抗例子的视图,其中防御者试图找到最小化以下目标的参数θ*:
这里,L是预先指定的损失函数,是标记的数据分布,并且是可接受的对抗扰动的集合(由威胁模型指定)。在实践中,防御是通过对抗性训练来实施的,其中对抗性示例在训练过程中生成并用作输入。由此产生的分类器已经过实证评估,以便在小A∞扰动下为CIFAR-10和MNIST数据集上的对抗性示例提供更高的鲁棒性。
在Kannan等人。 [9],作者声称保卫马德里等人。当缩放到ImageNet [7]分类器时,[10]无效,并提出新的防御 - 对抗性Logit Pairing(ALP)。在ALP防御中,使用替代训练目标训练分类器,该目标在相同图像的未受干扰和对抗版本上强制模型的对数激活之间的相似性。损失还有一个术语,旨在保持原始训练集的准确性。

这里,D是距离函数,f是函数映射参数和对logits的输入(通过给定网络),λ是超参数,其余符号如(1)中所示。该目标旨在通过提供额外的正则化术语来促进“更好的数据内部表示”[9]。在以下部分中,我们显示可以使用基于投影梯度下降(PGD)的攻击来规避ALP。

设置细节:我们分析了作者实施的对抗性Logit配对1.我们使用代码发布中的“ImageNet预训练模型”1来评估Kannan等人的主张。 [9]。通过私人通信,作者承认我们的结果,但表示Kannan等人的结果。 [9]是使用未包含在官方代码版本中的不同未发布模型生成的。
我们的评估代码是公开的。 2。威胁模型和声明表1:来自[9]的对抗性Logit配对针对ImageNet的针对性攻击所声称的稳健性与此工作中攻击者成功率的下限相比较。在这种情况下攻击者的成功率代表攻击者成功诱导对抗目标类的百分比,而准确度则衡量分类器输出正确类的次数百分比。

据称ALP在各种白盒和黑盒威胁模型下都是安全的;在这项工作中,我们考虑白盒威胁模型,攻击者可以完全访问被攻击模型的权重和参数。具体来说,我们考虑在ImageNet数据集上对ALP进行残余网络训练,其中声称ALP在16/255的A∞扰动界限下在此设置中实现最先进的精度,如表1所示。防御最初是针对有针对性的对抗性攻击进行评估的,因此表1指的是针对目标对抗性攻击的攻击者成功率。为了完整起见,我们还对非目标攻击进行了简要分析,以显示缺乏鲁棒性(图2),但在提议的威胁模型或声明的背景下不考虑这一点。

对手的目标。在评估攻击时,可以产生有针对性的对抗性示例的攻击比只能产生无针对性的对抗性示例的攻击更强大。另一方面,仅针对有针对性的对抗性示例(例如,使用随机目标类别)的防御性弱于针对非目标对抗性示例的强大防御。 ALP文件只试图表明对目标对抗性例子的稳健性。

重磅MIT开源人工智能算法评估和理解对抗Logit配对的稳健性评估:4.1分析防御目标Adversarial Logit Pairing被提议作为对抗训练的增强,其本身旨在近似于方程1中概述的稳健优化方法。本文提出通过在对抗训练目标中添加“正则化器”,在高维数据集上获得更好的结果可以实现。在本节中,我们概述了制定的ALP与Madry等人提供的稳健优化视角之间的几个概念差异。 [10]。

自然与对抗性图像的训练。在稳健优化目标的制定中的关键部分是关于theta的最小化是在由max player制作的输入上完成的;对于任何“自然”x,θ不是最小化的。另一方面,在ALP公式中,正则化应用于清洁数据L(θ,x,y)的损失。这从根本上改变了对Madry等人的辩护的优化目标。 [10]。

生成有针对性的对抗性示例。 Kannan等人给出了一个值得注意的实施决定。
[9]是在培训过程中产生有针对性的对抗性例子。这再次偏离用于对抗训练的强大的优化启发鞍点公式,因为内部最大化玩家不再最大化L(θ,x +δ,y),而是最小化L(θ,x +δ,yadv)用于另一个班yadv。请注意,尽管Athalye等人。 [2]建议在目标中评估对ImageNet分类器的攻击

威胁模型(在[9]中注明证明了这种实现选择的合理性),这个建议不会扩展到对抗性训练或者凭经验证明防御是安全的(对目标攻击只有强大的防御能力弱于无目标攻击的防御能力)攻击)。

4.2分析经验稳健性
经验评估给出了测试数据防御的稳健性的上限。使用弱攻击进行的评估可以看作是松散的边界,而使用更强攻击进行的评估可以提供真正的对抗风险的更严格界限[12]。我们发现ALP作为对抗性实例的防御的稳健性显着低于声称的[9]。

攻击程序。我们最初使用ALP作者提供的评估代码,发现将PGD攻击中的步数设置为默认值20,这会显着降低准确性。为了便于使用,我们重新实现了标准PGD攻击,我们运行了多达1000步或直到收敛。我们用随机目标评估非目标攻击和目标攻击,测量前者的模型准确度和后者的对手成功率(归类为目标类别的数据点的百分比)。

经验稳健性。我们为ALP训练的ImageNet分类器和基于ResNet的基线ImageNet分类器的攻击建立了对抗稳健性的更严格的上限。我们的结果,s(允许扰动)与攻击成功率的完整曲线总结在图1中。在s = 16的威胁模型中,我们的攻击成功率达到98.6%,并降低了准确度(正确分类的百分比)分类器的目标攻击所扰乱的例子为0.6%。
图2显示非目标攻击给出了类似的结果:经过ALP训练的模型在s = 16/255时达到了0.1%的准确率。

损失景观。我们在图3中的验证输入周围绘制损失景观。在损失景观中,我们沿着由梯度符号和随机rademacher矢量定义的线性空间改变输入,其中x和y轴表示添加的扰动幅度。每个方向和z轴代表损失。该图提供了ALP的证据,有时会在输入点周围紧紧地引起“更崎岖”,沮丧的损失景观。

攻击收敛。如通过对损失表面的分析所表明的,ALP训练的网络的优化环境不太适合梯度下降。对于单个数据点,检查目标(图4)和非目标(图5)攻击中梯度下降步骤的损失,我们观察到对受ALP训练的网络的攻击需要更多的梯度下降步骤。
这通常适用于所有数据点。对受ALP训练的网络的攻击需要更多的梯度下降步骤来收敛,但真正的鲁棒性没有增加(例如,在s = 16/255时,两个网络的准确度大致为0%)。

重磅MIT开源人工智能算法评估和理解对抗Logit配对的稳健性结论:在这项工作中,我们对Kannan等人提出的对抗性Logit配对防御(ALP)的稳健性进行了评估。 [9],并表明它在考虑的威胁模型下不稳健。然后,我们研究ALP的制定,实施和损失情况。我们使用的评估方法是一般性的,可能有助于提高对抗性防御的评估标准。

原文标题:Evaluating and Understanding the Robustness of Adversarial Logit Pairing

开源关键词:adversarial-logit-pairing-analysis

重磅MIT开源人工智能算法评估和理解对抗Logit配对的稳健性相关推荐

  1. 开源人工智能算法一种新颖的超像素采样网络深层特征来估计任务特定的超像素

    开源人工智能算法一种新颖的超像素采样网络深层特征来估计任务特定的超像素摘要: 超像素提供图像数据的有效低/中级表示,这极大地减少了后续视觉任务的图像基元的数量. 现有的超像素算法无法区分,因此难以集成 ...

  2. 重磅开源人工智能大型场景草图数据集图像检索草图着色编辑和字幕

    重磅开源人工智能大型场景草图数据集图像检索草图着色编辑和字幕摘要:我们提供了第一个大型场景草图数据集SketchyScene,目的是推进对物体和场景层面的素描研究.该数据集是通过一个新颖且精心设计的众 ...

  3. 重磅开源人工智能纹理分割自动分割由参考纹理覆盖图像自监督学习

    重磅开源人工智能纹理分割自动分割由参考纹理覆盖图像自监督学习(特约点评:人工智能纹理分割自动分割由参考纹理覆盖图像自监督学习对于纹理分割提供了新的思路,这个创新点趣说人工智能必须推荐.来自网友小星的推 ...

  4. 微软为Bing开源搜寻人工智能算法 SPTAG

    我们日常的网络活动中,有不少都是在进行搜寻,而文字搜寻之外,非文字搜寻例如声音或者图像搜寻变得越来越普及.这些功能需要人工智能辅助以分析声音或者图像内容,微软的搜寻用人工智能算法 SPTAG 最近终于 ...

  5. 理解人工智能算法,初中数学知识就够了

    原文:https://mp.weixin.qq.com/s/7nycshlXqHB22Tb3OulWGw 目录 小学三年级我们就开始学习人工智能了 初中二年级的知识解释机器学习求解思路 初中三年级的知 ...

  6. Interview之AI:人工智能领域岗位求职面试—人工智能算法工程师知识框架及课程大纲(AI基础之数学基础/数据结构与算法/编程学习基础、ML算法简介、DL算法简介)来理解技术交互流程

    Interview之AI:人工智能领域岗位求职面试-人工智能算法工程师知识框架及课程大纲(AI基础之数学基础/数据结构与算法/编程学习基础.ML算法简介.DL算法简介)来理解技术交互流程 目录 一.A ...

  7. ICML 2021:矩阵乘法无需相乘,速度提升100倍,MIT开源最新近似算法

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 萧箫 发自 凹非寺 量子位 报道 | 公众号 QbitAI 在不做乘 ...

  8. 《深度学习,统计学习,数学基础》人工智能算法工程师手册:程序员写的AI书,50 章一网打尽...

    来源:专知 本文约3400字,建议阅读10+分钟. 免费开源人工智能手册,带你快速上手写代码! [ 导读 ]市面上很多人工智能相关的书籍.大部分的书,面向小白,内容深度不够:小部分教材书或者科研书,内 ...

  9. 15款顶级开源人工智能工具推荐

    人工智能是技术研究领域最炙手可热的领域之一.IBM.谷歌.微软.Facebook和亚马逊等公司正投入巨资进行研发,并纷纷收购在机器学习.神经网络.神经语言和图像处理等领域取得进展的初创公司.考虑到人工 ...

最新文章

  1. 为什么机器学习项目非常难管理?
  2. 对ETC上线Coinbase反应的众生相
  3. VMware虚拟机提示“以独占方式锁定此配置文件失败”解决方案
  4. Python学习入门基础教程(learning Python)--3.3.4 Python的if-elif-else语句
  5. 【启发式合并】梦幻布丁(金牌导航 启发式合并-1/luogu 3201)
  6. hdu 4502 一维dp
  7. Python 函数(可变参数)
  8. 手把手教你入侵网站修改数据_手把手教你使用Python抓取QQ音乐数据(第四弹)...
  9. Element 2.13.0 发布,基于 Vue 的桌面端组件库
  10. 在虚拟机安装windows xp时所需要的序列号
  11. cocos2d-js 的 cc.callFunc 参数
  12. matplotlib报错Line2D‘ object has no property ‘linestyle‘或‘linewidth‘
  13. 加密狗加密excel ,方法之 C#开发Excel自定义函数
  14. 京东后台->京东商智uuid算法
  15. 添加Adobe PDF 打印机
  16. 程序员如何写出技术好文?
  17. 分配工作时需要考虑的问题
  18. 移动端 UI设计尺寸(一)篇
  19. LTE-PHY物理资源划分(一)
  20. c++实现哈夫曼huffman压缩文本

热门文章

  1. java 数组 列表_用Java将列表转换为数组
  2. c51矩形波输出汇编语言,51单片机汇编语言编程:用定时器控制输出矩形波
  3. mysql和mongodb配合_MongoDB和Mysql怎样结合
  4. 华为手机像素密度排行_2020拍照手机十大排行:华为128分破纪录,苹果无一上榜...
  5. spring 配置文件位置
  6. Java vararg(动态参数)的应用
  7. Linux下Redis3.2的安装和部署
  8. 因Facebook帖子涉嫌包含仇恨言论 德国警方突击搜查36名用户住所
  9. 'yii\base\InvalidRouteException' with message 'Unable to resolve the request site/error.'
  10. 思科交换机Debug调试命令