德国图宾根大学发布可扩展「对抗黑盒攻击」，仅通过观察决策即可愚弄深度神经网络

原文来源：arXiv

作者：Wieland Brendel、Jonas Rauber、Matthias Bethge

「雷克世界」编译：嗯~阿童木呀、哆啦A亮

不知道大家有没有注意到，许多机器学习算法很容易受到几乎不可察觉的输入干扰的影响。到目前为止，我们还不清楚这种对抗干扰将为现实世界中机器学习应用的安全性带来多大的风险，因为用于生成这种干扰的大多数方法要么依赖于详细的模型信息（基于梯度的攻击）或者置信度分数，例如类概率（基于分数的攻击），而这两种在大多数现实世界中都是不可用的。在许多这样的情况下，目前我们需要后退到基于迁移的攻击中，其中它依靠繁琐的替代模型，需要访问训练数据，并可以被防御。在这里，我们强调了纯粹依靠最终模型决策的攻击的重要性。这种基于决策的攻击是（1）适用于真实世界的黑盒模型，如自动驾驶汽车；（2）需要较少的知识，比基于迁移的攻击更容易应用；（3）相较于基于梯度或基于分数的攻击，它对于简单的防御具有更强健的鲁棒性。以往的攻击只限于简单的模型或简单的数据集。而在本文中，我们引入边界攻击（Boundary Attack）——一种基于决策的攻击，它从一个大的对抗性干扰开始，然后力求在保持对抗的同时减少干扰。这种攻击在概念上是很简单的，要求接近没有超参数的调整，并且在像ImageNet这样的标准计算机视觉任务中，可以与最好的基于梯度的攻击相媲美。我们将这个攻击应用于Clarifai.com中的两个黑盒算法。特别是边界攻击以及基于决策的类攻击，为研究机器学习模型的鲁棒性开辟了新的途径，并提出了关于部署机器学习系统安全性的新问题。这个攻击的实现可以作为Foolbox的一部分（https://github.com/bethgelab/foolbox）。

图1 :（左）对抗攻击方法的分类。边界攻击适用于现实世界中机器学习算法，因为它只需要访问模型的最终决策（例如类标签或转录句子），而不依赖于模型的信息，如梯度或置信度分数。（右）应用于Clarifai品牌识别模型的案例。

一般说来，应用于计算机视觉、语音识别和其他领域中的许多高性能机器学习算法易受到其输入的微小变化的影响（Szegedy等人于2013年提出）。我们可以举一个具体的例子来说明这一点，比如像VGG-19这样一个在目标识别中训练的先进的深度神经网络可以将图像中的主要目标准确地识别为虎猫（tiger cat），但是如果以某种特定的方式对像素值进行轻微的干扰，那么同一网络的预测结果将会彻底改变（比如将其识别为公交车）。这些所谓的对抗性干扰在许多机器学习模型中是普遍存在的，而且往往不被人类所感知。一般情况下，我们将力求找到这种对抗性干扰的算法称之为为对抗性攻击。

这种对抗性干扰引起了人们对于两个方面的关注。一方面，他们担心已部署的机器学习算法的完整性和安全性，比如自动驾驶汽车或人脸识别系统。路牌上（例如，将停车标志变成200公里/小时的速度限制）或路灯上（例如，将红灯变成绿灯）的微小干扰可能造成严重的后果；另一方面，对抗性干扰为人类和机器的感官信息处理之间的差距提供了一种关注焦点，并因此为更具鲁棒性、更加人性化的体系架构提供了指导。

对抗攻击大致可以分为三类：基于梯度的、基于分数的和基于迁移的攻击（参见图1）。基于梯度的攻击和基于分数的攻击通常被分别表示为白盒攻击和oracle攻击，但我们试图尽可能地明确在每个类别中所使用的信息。影响所有这些类别的攻击的一个严重问题是，它们直截了当地进行防御：

•基于梯度的攻击：大多数现有的攻击都依赖于详细的模型信息，包括输入的损失的梯度。

防御：防御基于梯度的攻击的一种简单方法是对梯度进行掩码操作，例如通过隐式地增加不可微的元素，比如防御性精炼或饱和的非线性，再或者通过明确地添加不可微的分类器。

•基于分数的攻击：一些攻击更加不可知，只依赖于模型的预测分数（例如类概率或逻辑）。

防御：通过在模型中加入像dropout这样的随机元素，从而可以直接严重阻碍对数值梯度的估计。此外，许多鲁棒的训练方法在样本周围引入了一个极值点，它们不仅对梯度本身进行了掩码，而且还对其数值估计进行了掩码。

•基于迁移的攻击：基于迁移的攻击并不依赖于模型信息，而是需要关于训练数据的信息。该数据用于训练一个完全可观察的替代模型，而该模型可以合成对抗干扰。它们依赖于经验观察，即对抗样本经常在模型之间迁移。

防御：最近针对迁移攻击的一种防御方法，是基于通过对由替代模型的对抗样本增强的数据集进行的健壮性训练，而它已经证明，在2017年的Kaggle 对抗攻击竞赛中，它几乎可以成功防御所有攻击（https://www.kaggle.com/c/nips-2017-defense-against-adversarial-attack）。

•基于决策的攻击：直接攻击，完全依赖于模型的最终决策（例如第一类标签或被转录的句子）。

这个划分类别是合理的，原因如下：首先，相较于基于分数的攻击，基于决策的攻击与真实世界的机器学习应用程序关联更大，其中，在这些应用程序中，很难获得置信度分数或logit。与此同时，相较于其他类别的攻击，基于决策的攻击有可能对标准防御（如梯度掩码、固有随机性或鲁棒性训练）具有更稳健的鲁棒性。最后，与基于迁移的攻击相比，它们所需要的模型（架构和训练数据）信息要少得多，而且要简单得多。

目前还没有有效的基于决策的攻击能够扩展到像ImageNet这样的自然数据集中，且能够适用于深度神经网络（DNN）。先前最相关的研究是迁移攻击的一个变体，其中用于学习替代模型的训练集被替换为合成数据集。这个合成数据集是由攻击者以及替代模型的训练生成的。每个合成样本的标签都是从黑盒模型中抽取的。虽然这种方法可以很好地处理内部类的可变性很低的数据集(比如MNIST)，但是这并不表明它可以扩展到诸如CIFAR或ImageNet这样更为复杂的自然数据集中。其他基于决策的攻击是特定于线性或凸诱导性（convex-inducing classifiers）分类器，并不适用于其他机器学习模型。Biggio等人于2013所进行的研究基本上处于迁移攻击和基于决策的攻击之间，其中，替代模型是在从黑盒模型中观察到的标签的数据集上进行训练的。这种攻击仍然需要关于黑盒模型训练的数据分布知识，所以我们不认为这是一个纯粹的基于决策的攻击。最后，一些朴素攻击，比如沿着一个随机方向偏离原始样本的路线搜索，我们可以将其称之为基于决策的攻击，但它们引发了巨大的、非常明显的干扰，而这些干扰要比典型的基于梯度的、基于分数的或基于迁移的攻击要大得多。

在整篇论文中，我们主要关注威胁情景，在这种情景下，攻击者的目标是通过对样本产生最小干扰来改变特定输入样本的模型的决策（无论是有针对性还是无针对性）。攻击者可以观察模型对于任意输入的最终决策，并且知道至少一个干扰，但是大的干扰样本是对抗的。

本文的贡献如下：

•我们强调基于决策的攻击是与现实应用高度相关的对抗攻击的一个重要类别，对衡量模型的鲁棒性非常重要。

•我们引入了第一个有效的基于决策的攻击，可扩展到复杂的机器学习模型和自然数据集。边界攻击（1）在概念上非常简单，（2）极其灵活，（3）只需要很少的超参数调整，（4）在有针对性和无针对性计算机视觉场景中能够与最好的基于梯度的攻击相媲美。

•我们表明，边界攻击能够打破以前建议的防御机制，如防御性精炼。

•我们在Clarifai.com网站上展示了边界攻击在两个黑盒机器学习模型上的实用性，用于品牌和名人识别。

由边界攻击生成的对抗样本，三个案例分别基于MNIST、CIFAR、ImageNet。对于MNIST，差异显示为正（蓝色）和负（红色）变化。对于CIFAR和ImageNet，我们采用颜色通道规范。所有差异都已被放大，以提高能见度。

无针对性攻击的例子。这里的目标是在错误分类（原始图像被正确分类）的同时，合成与原始图像尽可能接近的图像。对于每个图像，我们报告直到该点（图像上方）的模型调用（预测）的总数以及对抗及原始（图像下方）之间的均方误差。

在本文中，我们强调了一个大多数被忽视的对抗性攻击类型的重要性——基于决策的攻击，可以在模型中找到对抗样本，其中，只有最后的决策才能被观察到。我们认为，这个类型的重要性原因有三：首先，这个类型的攻击与许多真实世界中部署的机器学习系统（如内部决策过程是不可观测的自动驾驶汽车）高度相关；其次，这个类别的攻击不依赖于在被攻击的模型上进行相似的数据训练的替代模型，从而使实际的应用更加直截了当。第三，这个类别的攻击有可能对诸如梯度掩码，内在随机性或鲁棒训练等常见欺骗行为具有更强的可靠性。

我们还引入了第一个适用于通用机器学习算法和复杂自然数据集的有效攻击：边界攻击。边界攻击的核心是遵循对抗和非对抗样本之间的决策边界，采用非常简单的拒绝抽样算法（rejection sampling algorithm），结合简单的建议分布（proposal distribution）和信赖域方法（Trust Region methods）启发的动态步长调整。其基本的工作原理——从一个大的干扰开始，并逐渐减少——基本上推翻了了所有以前对抗攻击的逻辑。除了出奇的简单之外，边界攻击在可能的对抗标准方面也是非常灵活的，并且能够在基于最小干扰大小的标准计算机视觉任务上与基于梯度的攻击相提并论。

事实上，简单约束的独立同分布的高斯分布可以作为边界攻击每一步的有效建议干扰是出乎意料的，并揭示了当前计算机视觉体系结构信息处理的脆弱性。尽管如此，边界攻击还有很多方法可以更加有效，特别是通过某个特定模型学习适当的建议分布，或者通过对最近成功或失败的建议历史进行调整建议分布。

基于决策的攻击对于评估机器学习模型的鲁棒性以及突出像自动驾驶汽车这样的闭源机器学习系统的安全风险具有高度的相关性。我们希望边界攻击能够促进在这一领域进行更深入的研究。

未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能，互联网和脑科学交叉研究机构。由互联网进化论作者，计算机博士刘锋与中国科学院虚拟经济与数据科学研究中心石勇、刘颖教授创建。

未来智能实验室的主要工作包括：建立AI智能系统智商评测体系，开展世界人工智能智商评测；开展互联网（城市）云脑研究计划，构建互联网（城市）云脑技术和企业图谱，为提升企业，行业与城市的智能水平服务。

如果您对实验室的研究感兴趣，欢迎支持和加入我们。扫描以下二维码或点击本文左下角“阅读原文”

德国图宾根大学发布可扩展「对抗黑盒攻击」，仅通过观察决策即可愚弄深度神经网络相关推荐

如何评价小米发布的 UWB「一指连」技术，手机一指就能操控是如何实现的？ https://www.zhihu.com/question/425238925
如何评价小米发布的 UWB「一指连」技术,手机一指就能操控是如何实现的?
「DLP-KDD 2021征文」及上届论文全集，包含深度学习推荐/广告系统、多目标、模型服务等
「DLP-KDD 2021征文」及上届论文全集,包含深度学习推荐/广告系统.多目标.模型服务等在DLP-KDD 2021征稿之际,为大家准备了DLP-KDD2020的全部文章和资源列表,内容涵盖了几 ...
斯坦福大学马超：探寻「隐式偏差」的完整理论框架
智源导读:从数学角度,来构建深度神经网络的理论基础,是一个重要但却「小众」的研究方向,相关的学者多数聚集在一些顶尖知名高校. 斯坦福大学助理教授马超博士正是这批学者之一,其研究内容主要聚焦在神经网络的 ...
Unicode 发布新版本，「biáng biáng 面」马上可以打出来了！
公众号关注 "GitHubDaily" 设为 "星标",带你了解技术圈内新鲜事! 转自量子位有一种面条,很多人吃过,但很少人能写对它的名字,甚至拿输入法都打不 ...
辽宁省哪所大学计算机专业好,「毕业之家」辽宁省最好的大学排名以及强势专业，你知道几所？...
原标题:「毕业之家」辽宁省最好的大学排名以及强势专业,你知道几所? 大家好,我是毕业之家小佳同学.记得关注哟,后续将会为大家推送高考志愿填报和大学专业的介绍哟. 辽宁处于东北亚的几何中心,这里少数民族 ...
Yoshua Bengio团队通过在网络「隐藏空间」中使用降噪器以提高深度神经网络的「鲁棒性」...
原文来源:arXiv 作者:Alex Lamb.Jonathan Binas.Anirudh Goyal.Dmitriy Serdyuk.Sandeep Subramanian.Ioannis Mit ...
Yoshua Bengio团队通过在网络「隐藏空间」中使用降噪器以提高深度神经网络的「鲁棒性」
原文来源:arXiv 作者:Alex Lamb.Jonathan Binas.Anirudh Goyal.Dmitriy Serdyuk.Sandeep Subramanian.Ioannis Mit ...
nodejs redis 发布订阅_「赵强老师」Redis的消息发布与订阅
Redis 作为一个publish/subscribe server,起到了消息路由的功能.订阅者可以通过subscribe和psubscribe命令向Redis server订阅自己感兴趣的消息类型 ...
「太魔人说」仅凭心中热爱，我们无问西东，但凭初心
点击蓝字关注我们 AI TIME欢迎每一位AI爱好者的加入! 太魔人他们因对AI的热爱在这里相逢因对知识的渴求在这里成长因对梦想的期盼在这里守望让我们一起来听听,太魔人们如何讲述他们与AI ...

德国图宾根大学发布可扩展「对抗黑盒攻击」，仅通过观察决策即可愚弄深度神经网络

德国图宾根大学发布可扩展「对抗黑盒攻击」，仅通过观察决策即可愚弄深度神经网络相关推荐

最新文章

热门文章