本文作者:kurffzhou,腾讯 TEG 安全工程师

最近,Nature发表了一篇关于深度学习系统被欺骗的新闻文章,该文指出了对抗样本存在的广泛性和深度学习的脆弱性,以及几种可能的解决方法。安全平台部基础研究组自2017年来在对抗样本的生成及防守方法进行了深入研究,在这里团队通过在攻击方面的经验,分享我们对于防守对抗样本的一些思考,欢迎共同讨论。

深度学习在现实生活中的应用越来越广,然而越来越多的例子表明,深度学习系统很容易受到对抗样本的欺骗。那么,AI到底是怎么“想”的?为什么这么容易被骗?

要回答这个问题,我们首先看图片来做个小实验——

图1

  • 图1左图:原始图片(图片来源:ImageNet数据集)

  • 图1中图:局部块保持像素的布局不变,但是整体图像的全局布局改变

  • 图1右图:局部块的像素的布局变化,但是整体图像的全局布局不变

对于这三幅图,神经网络会“认为”图1中图图1右图哪张图片更与图1左图是一致的呢?

毫无疑问,对于人的直觉来说,相对图1中图而言,图1右图更与图1左图一致,因为人类普遍倾向于对整体图像的布局进行识别。

然而我们通过统计实验发现,利用神经网络进行预测,图1中图的预测结果更加倾向于与图1左图的预测结果保持一致。可见,人与机器对图片的识别结果存在较大差异。

为了深入解释这种差异,下文首先对深度学习常用的模型进行简单介绍,再对深度学习模型所学习得到的特征进行可视化来解释深度学习模型在图像方面的优势,并通过相关实验研究深度学习模型到底在“想”什么、学习了什么。

1、深度学习常用模型以及特征可视化

深度学习常用模型之一的Alexnet模型:Alexnet模型通过多层卷积以及max-pooling操作,最后通过全连层得到最后预测结果,通过计算损失L来刻画网络预测结果与我们人工标注类别的差异大小,然后通过计算损失对可学习参数的梯度,通过梯度下降的方式来更新网络的权重,直到损失L下降到网络预测的结果与我们人工标注差异很小时,即神经网络通过对输入图像的层层卷积、max-pooling、全连等操作获得了正确的结果。

图2:Alex网络结构(图片来源:文献9)

我们首先对多种不同类型的网络(AlexNet, ResNet等)的底层卷积核进行可视化,我们发现这些底层特征存在一定的共性:这些网络底层卷积核都在提取梯度、颜色等局部模式,对应图像中边和线等,如图3所示。

图3:神经网络底层卷积核可视化(图片来源:链接11)

为了可视化高层特征,我们通过梯度上升优化目标函数的方式来直观认识高层特征所对应的直观图像。我们首先将图像初始化为0,并通过计算如图4中损失函数对图像的梯度,并不断修改图像像素就会得到图5中的可视化结果。这些图表示,要使得最终某类的分数最大,那么所对应的输入图像应该是什么样子,从图5中可以直观看出大概所属类别洗衣机、键盘、狐狸、鹅、鸵鸟以及轿车。如果我们换一种考虑特征多面性的可视化方法,就可以得到一个更加清晰的可视化图,从中可以更加清晰、直观地看出所属类别不同层次的特征,如图6所示。

图4:神经网络高层特征的使用方法(图片来源:链接11)


图5:高层特征可视化结果(图片来源:文献12)

图6:不同层次特征可视化结果(图片来源:文献13)

2、深度学习模型到底学习了什么?

那么,深度学习模型到底都在学习什么呢?

首先输入一张正常图像,我们通过放大的方式来可视化神经网络看到的模式:首先将原始图片通过神经网络进行计算,得到当前图片的输出结果,然后用梯度上升的方式最大化该输出结果,利用如图4中所使用的方法,最后得到如图8所示的结果。

图7:自然风景图片(图片来源:链接14)

从图中可以看出,神经网络对输入图像中的颜色和纹理进行了语义类别的放大,并产生对应的语义理解。例如,在山的区域,神经网络进行了建筑以及动物的解释,在天空区域有某些海洋生物的解释。但是由于这幅输入图像的这种解释所产生的特征响应并没有达到一定的程度,因此不会影响最后网络的识别,即神经网络不会把山那块区域识别成动物等。

图8:DeepDream结果(图片来源:链接14)

从上述可视化的结果可以看出,神经网络是对纹理颜色等进行了语义的理解,但并没有显著对全局的形状等信息进行了理解,最近一系列工作都表明了这点,例如Geirhos, Robert等人指出,在ImageNet预训练的网络对纹理存在偏向,他们利用实验做了说明:如下图所示:

图9:纹理实验(图片来源:文献2)

第一幅没有任何全局形状的信息,神经网络预测该幅图像为大象,对于第二幅图像预测为猫,对于第三幅图像,神经网络依然预测为大象,尽管人可能会识别出是一只猫,因此从这个对比实验中可以看出,神经网络更倾向于对纹理等信息进行了语义理解。

本文开头的小实验也进一步验证了这个假设:局部纹理的打乱,能够显著破坏神经网络的高层语义理解,但是全局结构的打乱并不能显著破坏神经网络的语义理解。

3、对抗样本生成

那么,一般是如何生成对抗样本呢?主要有两种方法:

1)基于梯度的方法:一般采用类似可视化的方法,只不过优化的目标不同,通过梯度更新的方式使得损失变大,并将生成纹理扰动叠加到原始图像上得到对抗样本。比较常用的方法有FGSM,BIM,基于momentum的方法,基于所有图片的梯度进行平滑的方法UAP,以及我们为了解决黑盒迁移性提出的TAP方法,这类方法速度较慢,一般通过多次迭代得到对抗样本,这类方法简单易扩展到其他任务。

2)基于神经网络的对抗样本生成方法:采用神经网络直接输出对抗样本,例如,AdvGAN、ATN等方法。这类方法的速度较快,但由于神经网络参数固定后生成的对抗样本会存在不丰富的问题。

4、如何避免“被骗”?

如Nature新闻中所说,不停的加入对抗样本训练能够获得对对抗样本的鲁棒性吗?我们给出答案是NO。对于对抗训练生成的模型,我们论文中的方法已经实验证明无法扛住低频扰动的对抗样本,文献3通过大量的实验也已证明,NIPS 2017对抗样本挑战赛中所使用的防守方法都无法防住包含低频扰动的对抗样本。

此外,底层图像去噪这种方法也是见效甚微。底层图像去噪只能防止高频的噪声的对抗样本,对于低频的噪声的对抗样本也无法完全抵抗。

通过在攻击方面的经验,团队对于对抗样本的防守方法有以下思考:

1)对特征值进行截断限制

对神经网络里使用truncated relu这类激活函数,对特征值进行截断处理,防止因为对抗样本造成的特征突变太大,影响网络最终预测结果。

2)设计模型更加关注图像整体结构,而不是纹理特征获得更强的鲁棒性

如Nature新闻中指出的,DNN和符号AI的结合,加入结构化的规则来融合整体的结构信息。

安全平台部公共平台中心基础研究组在对抗样本方面进行了深入的研究,并在计算机视觉顶级会议之一的ECCV 2018上发表对抗样本生成的论文,在NIPS 2017对抗样本挑战赛、极棒上海邀请赛等国内外大赛中均取得优异成绩。欢迎各位对对抗样本生成以及防守感兴趣的同学与我们交流。

参考文献:

1、Zhou, Wen, et al. "Transferable adversarial perturbations." Proceedings of the European Conference on Computer Vision (ECCV). 2018.

2、Geirhos, Robert, et al. "ImageNet-trained CNNs are biased towards texture; increasing shape bias improves accuracy and robustness." arXiv preprint arXiv:1811.12231 (2018).

3、Sharma, Yash, Gavin Weiguang Ding, and Marcus Brubaker. "On the Effectiveness of Low Frequency Perturbations." arXiv preprint arXiv:1903.00073 (2019).

4、https://www.nature.com/articles/d41586-019-03013-5

5、Krizhevsky, A., Sutskever, I., Hinton, G.E.: Imagenet classification with deep con- volutional neural networks. In: Advances in neural information processing systems. (2012) 1097–1105

6、Carlini, N., Wagner, D.: Towards evaluating the robustness of neural networks. arXiv preprint arXiv:1608.04644

7、Dong, Y., Liao, F., Pang, T., Su, H., Zhu, J., Hu, X., Li, J.: Boosting adversar- ial attacks with momentum. In: The IEEE Conference on Computer Vision and Pattern Recognition (CVPR). (June 2018)

8、Shumeet Baluja and Ian Fis- cher. Adversarial transformation networks: Learn- ing to generate adversarial examples. arXiv preprint arXiv:1703.09387, 2017

9、Krizhevsky A, Sutskever I, Hinton G E. Imagenet classification with deep convolutional neural networks[C]//Advances in neural information processing systems. 2012: 1097-1105.

10、http://www.image-net.org

11、http://cs231n.stanford.edu

12、Simonyan K, Vedaldi A, Zisserman A. Deep inside convolutional networks: Visualising image classification models and saliency maps[J]. arXiv preprint arXiv:1312.6034, 2013.

13、Nguyen A, Yosinski J, Clune J. Multifaceted feature visualization: Uncovering the different types of features learned by each neuron in deep neural networks[J]. arXiv preprint arXiv:1602.03616, 2016.

14、https://ai.googleblog.com/2015/06/inceptionism-going-deeper-into-neural.html

文中链接若打不开,可下方跳转到知乎查看收藏:

AI 到底是怎么「想」的?相关推荐

  1. AI 与合成生物学「联姻」的五大挑战:技术、数据、算法、评估与社会学

    来源:ACM通讯 编译:王玥 编辑:陈彩娴 在过去的二十年里,生物学发生了翻天覆地的变化,建立在生物系统上的工程成为了可能.赋予了我们细胞遗传密码(DNA)排序能力的基因组革命是这一巨大变化的主要推手 ...

  2. 真正厉害的 AI,从来不走「捷径」

    智源导读:中学考试,往往会出现这种现象:努力学习的学生反而没有整天玩耍的学生考得分数高.这其中的一个原因是,后者掌握了考试窍门,即使某些知识不懂,也可以蒙对. AI和人类一样,也有"考试&q ...

  3. AI律师出道,「倒贴」100万美元帮人类打官司

    丰色 发自 凹非寺 量子位 | 公众号 QbitAI 悬赏100万美元,如果你用我们的AI律师在最高法院上帮你辩护. 就在今天,来自美国一家机器人律师公司的CEO发了这样一条抓人眼球的消息. 瞬间,网 ...

  4. 苹果自动驾驶部门「裁员」又「重组」,AI负责人接掌「泰坦」

    点击上方,选择星标或置顶,不定期资源大放送! 阅读大概需要5分钟 Follow小博主,每天更新前沿干货 来源:外媒 编辑:LQ 转自:新智元 [导读]据外媒报道,12月9日,苹果公司将其自动驾驶汽车部 ...

  5. 沈向洋马毅牵头搞新AI会议:不要「大力」要「简约」,首届在香港大学举办,征稿中...

    鱼羊 发自 凹非寺 量子位 | 公众号 QbitAI 大模型时代,有人要来唱唱"大力出奇迹"的反调了. 沈向洋和UC伯克利&香港大学教授马毅牵头,搞了一个新的学术会议,CP ...

  6. DeepMind集成AI智能体架构「MERLIN」:基于目标导向智能体中的无监督预测记忆

    来源:arXiv 摘要:在自然界中,动物往往会执行目标导向的行为,尽管它们的传感器的范围有限. 作者:Greg Wayne. Chia-Chun Hung.David Amos.Mehdi Mirza ...

  7. 18所名校学霸教AI打王者,「开悟」AI+游戏高校大赛启动

    感谢阅读腾讯AI Lab微信号第103篇文章.本文将介绍 "开悟AI+游戏高校大赛". 8月18日,腾讯宣布首届"开悟AI+游戏高校大赛"(下称"大赛 ...

  8. 无生命的AI算不上「智能」

    来源:AI前线 作者:Ben Dickson 译者:王强 策划:刘燕 什么是智能?以非常快的速度解决复杂的数学问题就算智能吗?在国际象棋中击败世界冠军的力量算智能吗?分辨图像中数千个不同对象的能力算智 ...

  9. 如果让AI根据文字画「抽象画」,那得成什么样?|DeepMind新算法

    丰色 发自 凹非寺 量子位 报道 | 公众号 QbitAI 根据文字生成图片,AI早就会了. 而如今,和以往的"写实派"不同,AI要开始进军"抽象派"艺术了! ...

最新文章

  1. 使用工具类时尽量使用私有的无参构造函数
  2. jsonp和CORS跨域实现
  3. 前端学习(1984)vue之电商管理系统电商系统之完成静态属性
  4. rsync增量复制命令用法和守护进程的配置
  5. Hadoop安装教程 Mac版
  6. 2018最新完整版黑马安卓android第52期(基础+就业班)61G打包
  7. win7自定义html为桌面,Win7系统自定义桌面主题的方法
  8. python开源代码题库管理_GitHub - gnu-xiaosong/Qu_system: 一款开源免费的题库系统程序,高效,安全,功能强大...
  9. DelayQueue
  10. 网站备案靠谱吗_网上出现的代理备案可信?为什么可以4-7天备案成功?
  11. dex字符串解密_Dex加密(上)
  12. php qps是什么意思,tps和qps的区别和理解
  13. 简单的动漫网页成品 HTML+CSS静态网页作业 DW动漫网页设计与制作素材成品代做 海贼王主题网页设计制作6个页面
  14. 华为全连MGRE与星型拓扑MGRE(全网状与非全网状)
  15. W3school学习 js-2
  16. Steve Hui:云联云是中国云计算的最好切入点(4月刊推荐)
  17. 巨型计算机卡通,动漫史上十大超巨型机体
  18. 软件设计模式--软件设计演变过程
  19. 改善编程体验: IdeaVimExtension介绍
  20. mysql时间读不了了_Mysql之复习

热门文章

  1. 【蒲公英技术征文】如何在 ESP-12F/ESP8266 上实现 webserver
  2. nginx $document_uri 参数使用
  3. ASP.NET MVC+EF框架+EasyUI实现权限管理系列(13)-权限设计
  4. 【文件系统】删除文件名中含有空格的文件
  5. 学习面向对象和设计模式的好地方
  6. Bjarne:如何对付内存泄漏?
  7. 牛客多校6 - Josephus Transform(线段树求k-约瑟夫环+置换群的幂)
  8. 牛客 - 小V的序列(思维+位运算)
  9. 牛客 - 血压游戏(虚树+dp)
  10. 蓝桥杯 - 序列计数(记忆化搜索)