pytorch生成对抗示例
本文对ML(机器学习)模型的安全漏洞的认识,并将深入了解对抗性机器学习的热门话题。图像添加难以察觉的扰动会导致模型性能大不相同。通过图像分类器上的示例探讨该主题。使用第一种也是最流行的攻击方法之一,即快速梯度符号攻击算法(FGSM)来迷惑 MNIST 分类器。
1.威胁模型
对于上下文,有许多类别的对抗性攻击,每种攻击具有不同的目标和对攻击者知识的假设。总体目标是向输入数据添加最少量的扰动,引起期望的错误分类。对攻击者的知识有几种假设,其中两种是:白盒子和黑盒子。白盒攻击假定攻击者具有对模型的全部知识和访问权限,包括体系结构、输入、输出和权重。黑盒攻击,假设攻击者只能访问模型的输入和输出,并且对底层架构或权重一无所知。还有几种类型的目标,包括错误分类和源/目标错误分类。错误分类的目标,意味着攻击者只希望输出分类错误,但不关心新分类是什么。源/目标错误分类,意味着攻击者想要更改最初属于特定源类的图像,以便将其归类为特定目标类。
FGSM 攻击是一种白盒攻击,其目标是错误分类。有了这些背景信息,现在可以详细讨论攻击。
2.FGSM(Fast Gradient Sign Attack)
快速梯度标志攻击(FGSM),是迄今为止最早和最受欢迎的对抗性攻击之一,由 Goodfellow 等人在[Explaining and Harnessing Adversarial Examples] (https://arxiv.org/abs/1412.6572)中提出,是一种简单但是有效的对抗样本生成算法。旨在通过利用模型学习的方式和渐变来攻击神经网络。想法很简单,攻击调整输入数据,以基于相同的反向传播梯度来最大化损失,而不是通过基于反向传播的梯度,调整权重来最小化损失。 换句话说,攻击是利用损失函数的梯度,然后调整输入数据以最大化损失。
在进入代码之前,先讲一下著名的 FGSM 熊猫示例并提取一些符号。

从图中可以看出,x 是正确分类为“熊猫”的原始输入图像, y是 x的基本事实标签,
代表模型参数,
是用于训练网络的损失。攻击是反向将梯度传播回输入数据以计算
。 然后,在一个方向上(即
)调整输入数据(图中的
或0.007),这将使损失最大化。当目标网络仍然明显是“熊猫”时,由此产生的扰动图像被错误地分类为“长臂猿”。
3.实现
输入参数,定义被攻击的模型,然后编写攻击代码并运行一些测试。
3.1 引入相关包
from future import print_function
import torch
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim
from torchvision import datasets, transforms
import numpy as np
import matplotlib.pyplot as plt
3.2 输入
只有三个输入,定义如下: * epsilons:用于运行的epsilon值列表。在列表中保留0非常重要,因为表示原始测试集上的模型性能。而且,期望epsilon越大,扰动就越明显,但就降低模型精度方面而言攻击越有效。由于此处的数据范围为[0,1],因此epsilon值不应超过1。 * pretrained_model:pytorch/examples/mnist训练的预训练 MNIST 模型的路径。为简单起见,下载预训练模型。 * use_cuda:如果需要使用CUDA的布尔标志。带有CUDA的GPU并不重要,使用CPU不会花费太多时间。
epsilons = [0, .05, .1, .15, .2, .25, .3]
pretrained_model = “data/lenet_mnist_model.pth”
use_cuda=True
3.2 被攻击的模型
如上所述,受攻击的模型与pytorch/examples/mnist中的 MNIST 模型相同。可以训练并保存自己的 MNIST 模型,也可以下载并使用提供的模型。此处的 Net 定义和测试数据加载器已从 MNIST 示例中复制。目的是定义模型和数据加载器,然后初始化模型并加载预训练的权重。

定义LeNet模型

class Net(nn.Module):
def init(self):
super(Net, self).init()
self.conv1 = nn.Conv2d(1, 10, kernel_size=5)
self.conv2 = nn.Conv2d(10, 20, kernel_size=5)
self.conv2_drop = nn.Dropout2d()
self.fc1 = nn.Linear(320, 50)
self.fc2 = nn.Linear(50, 10)

def forward(self, x):x = F.relu(F.max_pool2d(self.conv1(x), 2))x = F.relu(F.max_pool2d(self.conv2_drop(self.conv2(x)), 2))x = x.view(-1, 320)x = F.relu(self.fc1(x))x = F.dropout(x, training=self.training)x = self.fc2(x)return F.log_softmax(x, dim=1)

#声明 MNIST 测试数据集何数据加载
test_loader = torch.utils.data.DataLoader(
datasets.MNIST(’…/data’, train=False, download=True, transform=transforms.Compose([
transforms.ToTensor(),
])),
batch_size=1, shuffle=True)

定义正在使用的设备

print("CUDA Available: ",torch.cuda.is_available())
device = torch.device(“cuda” if (use_cuda and torch.cuda.is_available()) else “cpu”)

初始化网络

model = Net().to(device)

加载已经预训练的模型

model.load_state_dict(torch.load(pretrained_model, map_location=‘cpu’))

在评估模式下设置模型。在这种情况下,这适用于Dropout图层

model.eval()
• 输出结果:
Downloading http://yann.lecun.com/exdb/mnist/train-images-idx3-ubyte.gz to …/data/MNIST/raw/train-images-idx3-ubyte.gz
Extracting …/data/MNIST/raw/train-images-idx3-ubyte.gz
Downloading http://yann.lecun.com/exdb/mnist/train-labels-idx1-ubyte.gz to …/data/MNIST/raw/train-labels-idx1-ubyte.gz
Extracting …/data/MNIST/raw/train-labels-idx1-ubyte.gz
Downloading http://yann.lecun.com/exdb/mnist/t10k-images-idx3-ubyte.gz to …/data/MNIST/raw/t10k-images-idx3-ubyte.gz
Extracting …/data/MNIST/raw/t10k-images-idx3-ubyte.gz
Downloading http://yann.lecun.com/exdb/mnist/t10k-labels-idx1-ubyte.gz to …/data/MNIST/raw/t10k-labels-idx1-ubyte.gz
Extracting …/data/MNIST/raw/t10k-labels-idx1-ubyte.gz
Processing…
Done!
CUDA Available: True
3.3 FGSM算法攻击
通过扰乱原始输入来定义创建对抗性示例的函数。fgsm_attack函数有三个输入,
是原始的勿扰乱 图像

是像素方式的扰动量

是 输入图像的损失梯度
。然后该功能将扰动图像创建为:

最后,为了保持数据的原始范围,将扰动的图像剪切到范围[0,1]。

FGSM算法攻击代码

def fgsm_attack(image, epsilon, data_grad):
# 收集数据梯度的元素符号
sign_data_grad = data_grad.sign()
# 通过调整输入图像的每个像素来创建扰动图像
perturbed_image = image + epsilon*sign_data_grad
# 添加剪切以维持[0,1]范围
perturbed_image = torch.clamp(perturbed_image, 0, 1)
# 返回被扰动的图像
return perturbed_image
3.4 测试函数
本文核心结果来自测试功能。每次调用此测试函数都会对 MNIST 测试集执行完整的测试步骤,并报告最终的准确性。此函数也需要输入 。
test函数展示受到强度为
的攻击下被攻击模型的准确性。对于测试集中的每个样本,该函数计算输入数据
的损失梯度,用fgsm_attack(perturbed_data) 创建扰乱图像,然后检查扰动的例子是否是对抗性的。除了测试模型的准确性之外,该函数还保存并返回一些成功的对抗性示例,以便稍后可视化。
def test( model, device, test_loader, epsilon ):

# 精度计数器
correct = 0
adv_examples = []# 循环遍历测试集中的所有示例
for data, target in test_loader:# 把数据和标签发送到设备data, target = data.to(device), target.to(device)# 设置张量的requires_grad属性,这对于攻击很关键data.requires_grad = True# 通过模型前向传递数据output = model(data)init_pred = output.max(1, keepdim=True)[1] # get the index of the max log-probability# 如果初始预测是错误的,不打断攻击,继续if init_pred.item() != target.item():continue# 计算损失loss = F.nll_loss(output, target)# 将所有现有的渐变归零model.zero_grad()# 计算后向传递模型的梯度loss.backward()# 收集datagraddata_grad = data.grad.data# 唤醒FGSM进行攻击perturbed_data = fgsm_attack(data, epsilon, data_grad)# 重新分类受扰乱的图像output = model(perturbed_data)# 检查是否成功final_pred = output.max(1, keepdim=True)[1] # get the index of the max log-probabilityif final_pred.item() == target.item():correct += 1# 保存0 epsilon示例的特例if (epsilon == 0) and (len(adv_examples) < 5):adv_ex = perturbed_data.squeeze().detach().cpu().numpy()adv_examples.append( (init_pred.item(), final_pred.item(), adv_ex) )else:# 稍后保存一些用于可视化的示例if len(adv_examples) < 5:adv_ex = perturbed_data.squeeze().detach().cpu().numpy()adv_examples.append( (init_pred.item(), final_pred.item(), adv_ex) )# 计算这个epsilon的最终准确度
final_acc = correct/float(len(test_loader))
print("Epsilon: {}\tTest Accuracy = {} / {} = {}".format(epsilon, correct, len(test_loader), final_acc))# 返回准确性和对抗性示例
return final_acc, adv_examples

3.5 运行攻击
实现的最后一部分是实际运行攻击。为 epsilons 输入中的每个 epsilon 值运行一个完整的测试步骤。 对于每个epsilon,保存最终的准确性,并在接下来的部分中绘制一些成功的对抗性示例。注意随着 epsilon 值的增加,打印精度会如何降低。另外,请注意ε= 0 的情况表示原始测试精度,没有攻击。
accuracies = []
examples = []

对每个epsilon运行测试

for eps in epsilons:
acc, ex = test(model, device, test_loader, eps)
accuracies.append(acc)
examples.append(ex)
• 输出结果:
Epsilon: 0 Test Accuracy = 9810 / 10000 = 0.981
Epsilon: 0.05 Test Accuracy = 9426 / 10000 = 0.9426
Epsilon: 0.1 Test Accuracy = 8510 / 10000 = 0.851
Epsilon: 0.15 Test Accuracy = 6826 / 10000 = 0.6826
Epsilon: 0.2 Test Accuracy = 4301 / 10000 = 0.4301
Epsilon: 0.25 Test Accuracy = 2082 / 10000 = 0.2082
Epsilon: 0.3 Test Accuracy = 869 / 10000 = 0.0869
4.结果
4.1 准确度 vs Epsilon
第一个结果是精度与 epsilon 图。如前所述,随着 epsilon 的增加,期望测试精度降低。这是因为较大的 epsilons 意味着,朝着最大化损失的方向迈出更大的一步。注意,即使 epsilon 值线性分布,曲线中的趋势也不是线性的。例如,ε= 0.05 时的精度仅比 ε= 0 低 约 4%,但ε= 0.2 时的精度比 ε= 0.15 低 25%。另外,请注意在 ε= 0.25 和 ε= 0.3 之间模型的准确性达到10级分类器的随机精度。
plt.figure(figsize=(5,5))
plt.plot(epsilons, accuracies, “*-”)
plt.yticks(np.arange(0, 1.1, step=0.1))
plt.xticks(np.arange(0, .35, step=0.05))
plt.title(“Accuracy vs Epsilon”)
plt.xlabel(“Epsilon”)
plt.ylabel(“Accuracy”)
plt.show()

4.2 样本对抗性示例
正如天底下没有免费午餐。在这种情况下,随着 epsilon 增加,测试精度降低,扰动也在变得更容易察觉。实际上,在攻击者必须考虑权衡,准确度降级和可感知性。展示了每个 epsilon 值的成功对抗性示例的一些例子。图的每一行显示不同的 epsilon 值。第一行是 ε= 0 的例子,代表没有扰动的原始“干净”图像。每个图像的标题显示“原始分类 - >对抗性分类。”注意,扰动在 ε= 0.15 时开始变得明显,并且在 ε= 0.3 时非常明显。然而,在所有情况下,尽管增加了噪音,人类仍然能够识别正确的类别。

在每个epsilon上绘制几个对抗样本的例子

cnt = 0
plt.figure(figsize=(8,10))
for i in range(len(epsilons)):
for j in range(len(examples[i])):
cnt += 1
plt.subplot(len(epsilons),len(examples[0]),cnt)
plt.xticks([], [])
plt.yticks([], [])
if j == 0:
plt.ylabel(“Eps: {}”.format(epsilons[i]), fontsize=14)
orig,adv,ex = examples[i][j]
plt.title("{} -> {}".format(orig, adv))
plt.imshow(ex, cmap=“gray”)
plt.tight_layout()
plt.show()

5.展望
本文能够深入了解对抗机器学习。在这里有很多潜在的方向。这次攻击代表了对抗性攻击研究的开始,因为后来有很多关于如何从对手攻击和防御 ML 模型的想法。事实上,在NIPS 2017上有一场对抗性攻击和防守比赛,文章:[Adversarial Attacks and Defences Competition] (https://arxiv.org/pdf/1804.00097.pdf)描述了竞赛中使用的许多方法。防御方面的工作,让萌发了使机器学习模型,在一般情况下更加健壮的想法,包括自然扰动和对抗性的输入。
另一个方向,不同领域的对抗性攻击和防御。对抗性研究不仅限于图像领域,对语音到文本模型的攻击。 但也许了解更多关于对抗性机器学习的最好方法就是动手实践。尝试从 NIPS 2017竞赛中实施不同的攻击,并了解与 FGSM 的区别。尝试从自己的攻击中保护模。

pytorch生成对抗示例相关推荐

  1. Pytorch生成对抗网络(GAN)官方入门教程

    目录 引言(Introduction) 生成对抗网络(Generative Adversarial Networks) 什么是GAN?(What is a GAN?) 什么是DCGAN?(What i ...

  2. pytorch生成对抗网络GAN的基础教学简单实例(附代码数据集)

    1.简介 这篇文章主要是介绍了使用pytorch框架构建生成对抗网络GAN来生成虚假图像的原理与简单实例代码.数据集使用的是开源人脸图像数据集img_align_celeba,共1.34G.生成器与判 ...

  3. PyTorch 生成对抗网络 01.生成对抗网络

    1. 简介 本教程通过一个例子来对 DCGANs 进行介绍.我们将会训练一个生成对抗网络(GAN)用于在展示了许多真正的名人的图片后产生新的名人. 这里的大部分代码来自pytorch/examples ...

  4. pytorch生成对抗网络生成动漫图像

    代码地址:pytorch实战,使用生成对抗网络生成动漫图像 dataset from torchvision import transforms from torch.utils.data impor ...

  5. xml格式是什么示例_什么是对抗示例?

    xml格式是什么示例 In recent times, Machine Learning (a subset of Artificial Intelligence) has been at the f ...

  6. 深度学习框架PyTorch入门与实践:第七章 AI插画师:生成对抗网络

    生成对抗网络(Generative Adversarial Net,GAN)是近年来深度学习中一个十分热门的方向,卷积网络之父.深度学习元老级人物LeCun Yan就曾说过"GAN is t ...

  7. 【PyTorch】12 生成对抗网络实战——用GAN生成动漫头像

    GAN 生成动漫头像 1. 获取数据 2. 用GAN生成 2.1 Generator 2.2 Discriminator 2.3 其它细节 2.4 训练思路 3. 全部代码 4. 结果展示与分析 小结 ...

  8. 生成对抗网络简介(包含TensorFlow代码示例)【翻译】

    判别模型 vs. 生成模型 示例:近似一维高斯分布 提高样本多样性 最后的思考 关于GAN的一些讨论 最近,大家对生成模型的兴趣又开始出现(OpenAI关于生成模型的案例).生成模型可以学习如何生成数 ...

  9. pytorch制作CNN的类印象图 class impression(类别生成图)及生成对抗攻击样本

      本文给出完整代码实现CNN模型的类别可视化输入图像--类印象图,并基于此生成对抗样本图像. 1,完整代码   在上一篇文章中,我给出了CNN特征可视化的代码,在此基础上稍加修改就可以得到根据各类别 ...

最新文章

  1. 国内首家!携程每周两天可在家“躺平”,76% 的员工主动报名
  2. 接班 RT 系统?Windows 10 云服务版首次亮相
  3. Zabbix JMX之tomcat监控
  4. oracle修改成olap模式,的Oracle OLAP Java实现 - 正确源加入
  5. 软件外包业的崛起,掀起电脑培训热潮
  6. xlwt表格的对齐样式
  7. python web应用_如何使用Python将通知发送到Web应用
  8. 王自如、罗永浩将一起出镜直播带货?罗永浩亲自回应
  9. java token redis生成算法_如何访问 Redis 中的海量数据,服务才不会挂掉?
  10. css图片的相关操作
  11. 苹果电脑如何正确断网?macOS操作系统断网方法
  12. 某网站前端页面性能测试
  13. 电子科技大学计算机学生水平,近三年的学生评价结果-电子科技大学.DOC
  14. pandoc实现文档不同格式的转换
  15. 关于算法的学习以及一些总结(一)
  16. CVPR:Refining Pseudo Labels with Clustering Consensus over Generations for Unsupervised Object Re-ID
  17. 利用Minia软件对基因组测序二代数据的初步组装
  18. elang mnesia 数据库操作
  19. 非常有用的一个正则表达式.匹配多个任意字符
  20. get请求获取不到参数

热门文章

  1. 窗口键 键位码_键盘上这些被冷落的键位居然有这么强大的功能
  2. 2022-2028年中国数字乡村建设深度调研及投资前景预测报告
  3. 2022-2028年中国钽酸锂单晶行业市场调查分析及投资发展潜力报告
  4. flask 学习实战项目实例
  5. spring Bean自动装配
  6. 【JavaWeb】servlet与http请求协议
  7. 【K8S实践】关于Kubernetes Dashboard的实践学习
  8. idea中项目失去svn控制
  9. C语言与OpenCL的编程示例比较
  10. TinyML-TVM如何驯服TinyML