如何看待机器视觉的“对抗样本”问题，其原理是什么？

这两天正好看过一篇相关的paper，“EXPLAINING AND HARNESSING ADVERSARIAL EXAMPLES” 作者是Ian Goodfellow、Jonathon Shlens、Christian Szegedy，发在ICLR 2015上。

之前很多人认为是由于模型非线性的特征导致了对抗样本的产生，而Goodfellow他们却提出恰恰是模型本身的线性（或者说是通过点乘得到score的方式）引发了对抗样本。

用最简单的score function s = W.T * X举例，W是权重，X是图像转化成的矩阵。那么我如果让X' = X + n，n足够小的话，W.T * X' = W.T * X + W.T * n，也就是所谓的线性本质。

放一个cs231n中的例子：

&amp;lt;img src="https://pic3.zhimg.com/3ef0e44b614d1e44d22ca3ca30aa8f16_b.png" data-rawwidth="1932" data-rawheight="1082" class="origin_image zh-lightbox-thumb" width="1932" data-original="https://pic3.zhimg.com/3ef0e44b614d1e44d22ca3ca30aa8f16_r.png"&amp;gt;
可以看到通过把x的每个维度加或减去0.5, 某一class的得分大大提升。

当然n不是随便乱取的。Goodfellow他们认为在某一个特定方向（特定方向取决于weights）上进行调整就非常容易愚弄训练出来的模型。Goodfellow他们在文章中提出了一种fast gradient sign method的方法，他们取n = sign(w)来generate一些对抗样本。具体感兴趣的话可以去看一下paper。

注意，这里的 $X$ 不是参数，而是样本。
就拿NN（Neural network）来说，假设我们的模型就是一个映射函数 $F$ ，其实如果最终NN收敛的点周围非常平坦，那么 $\nabla F(X) \sim 0$ , 也就是你周围非常smooth，那么这种情况根本不会出现。然而现在的每一层都是 $WX+b$ 这种形式，这会带来的的性质就是local linear，还有一点和我们采用的激活函数ReLU等类似的有关系. 导致整个 $F(X)$ 空间非常的不光滑，同时存在大量的区域是局部线性的。所以在维度足够高的空间中，在X邻域稍微变化一些，会导致 $F(X)$ 的值剧烈变化。
那么这个也可以说明一些？，我们的优化最终收敛在了类似于一个坡上。
总结来说，主要原因就是 linearity和 high dimension。
对于training sample中加入adversarial samples在一定程度上与加入L2 regularization有同样的作用，但是效果比L2 regularization在adversarial samples表现的上更加好。
－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－
NN训练的时候是对于参数求导，做梯度下降，收敛的时候是对于参数的梯度接近0。但是从直觉上来说，一个训练足够好的NN，对于识别物体，做物体分类，那么其结果也应该使得 $\nabla F(X)$ 接近于0，如果 $X$ 是一个很“明确的概念”，比如非常容易识别这个图是一只猫，那么在这个概念的一个邻域内，对于图片任意微小 $\varepsilon$ （比如生成adverserial examples中的抖动）的抖动，不应该出现从一个概念被以较高的的置信度认为是例外一个概念。概念与概念之间应该是一个渐变的过程。
－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－

可以参考karparthy博客Breaking Linear Classifiers on ImageNet
大致介绍了最先提出adversarial examples的 Intriguing properties of neural networks ，以及后续Ian Goodfellow提出的Explaining and Harnessing Adversarial Examples，这篇文章提出的主要原因是高维度的点乘运算，使得样本的一点点小的改变，对于预测的结果影响很大。
当然啦，这种adversarial example在这些文章中都是用特别的方法构造的（上面两篇文章里有提不同的方法），最近bengio他们组发文表示就算是从相机自然采集的图像，也会有这种特性http://arxiv.org/abs/1607.02533

如何看待机器视觉的“对抗样本”问题，其原理是什么？相关推荐

对抗样本之MIM原理coding
目录 1 引言 2 MIM原理 3 coding 3.1 训练模型 3.2 MIM对抗样本生成 3.3 可视化展示附录 1 引言 MIM,即基于动量的基本迭代法.在BIM上加了动量的操作.不会BIM ...
对抗样本之CW原理coding
目录 1 引言 2 算法详解 2.1 常人思路 2.2 CW算法思路 3 攻击直观对比 4 总结 5 附录 1 引言本文采用手稿模拟的角度,尽量使读者较为直白的面对冷冰冰的公式. 抛去CW算法不谈. ...
ACL2020 | 使用强化学习为机器翻译生成对抗样本
2020-07-12 03:08:49 本文介绍的是 ACL 2020 论文<A Reinforced Generation of Adversarial Examples for Neural ...
pytorch 对抗样本_【炼丹技巧】功守道：NLP中的对抗训练 + PyTorch实现
本文分享一个"万物皆可盘"的NLP对抗训练实现,只需要四行代码即可调用.盘他. 最近,微软的FreeLB-Roberta [1] 靠着对抗训练 (Adversarial Train ...
CVPR 2021 出自港中文，对抗变换提高对抗样本的可迁移性
关注公众号,发现CV技术之美 1 引言该论文发表于CVPR2021,主要是关于黑盒攻击中对抗样本可迁移性的研究.论文的创新点很新颖,虽然论文代码没有开源,但是自己实现起来也相对简单. 论文作者借助对 ...
对抗攻击之利用水印生成对抗样本
本文为52CV粉丝鬼道投稿,介绍了对抗学习领域最新的工作Adv-watermark. 论文标题:Adv-watermark: A Novel Watermark Perturbation for Ad ...
Push Pull：注意力攻击生成可迁移对抗样本
1 引言该论文是关于对抗样本可迁移性的文章.在该论文中,作者提出了一种可迁移注意力攻击(TAA\mathrm{TAA}TAA),该方法基于关注图像特定区域和特征对干净图像进行对抗扰动.另外,作者还 ...
神经网络中的对抗攻击与对抗样本
文章来源:https://baijiahao.baidu.com/s?id=1596201339578975526&wfr=spider&for=pc 前言在学习神经网络白盒.黑盒对 ...
对抗样本学习笔记:Adversarial Examples: Attacks and Defenses for Deep Learning
(持续更新) 一.相关优质博客 1.全面入门 2.直观理解原理 3.相关补充论文 4.对抗防御分类二.论文细节知识点 1.hessian矩阵(表一):hessian矩阵实际上就是函数的二阶导矩阵 H ...

如何看待机器视觉的“对抗样本”问题，其原理是什么？

如何看待机器视觉的“对抗样本”问题，其原理是什么？相关推荐

最新文章

热门文章