Protecting Against DNN Model Stealing Attacks 论文阅读心得

一、研究背景

机器学习（ML）应用越来越普遍。保护ML模型的机密性变得至关重要，原因有二：(a)一个模型对其拥有者来说可能是一种商业优势，(b)而对手可能利用偷来的模型来寻找可转移的对抗性例子，从而逃避原始模型的分类。对模型的访问可以被限制为只能通过定义明确的预测API。尽管如此，预测API仍然提供了足够的信息，允许对手通过预测API发送重复的查询来发动模型提取攻击。

二、解决的问题

在原文中，作者描述了新的模型提取攻击，使用了生成合成查询的新方法，并优化了训练超参数。使得攻击在目标和非目标对抗性例子的可转移性高达29%-44%，并且两个数据集的预测准确性高达46%，这两个方面的效果都优于最先进的模型提取。原文提供了关于如何进行有效的模型提取攻击的启示。
然后原文提出了PRADA，这是实现通用和有效检测DNN模型提取攻击的第一步。它分析了连续API查询的分布，并在这种分布偏离良性行为时发出警报。实验表明，PRADA可以检测到所有先前的模型提取攻击，而且没有误报。

三、论文创新点

（1）通过提出新的、更有效的攻击，证明了模型提取对DNN模型进行攻击的可行性

（2）提出了PRADA模型

四、文章介绍

1.introduction

（1）ML模型具有很好的商业价值，ML模型拥有者通过向客户提供API服务获取利润，但是ML模型API不可或缺的会泄露模型的秘密信息，攻击者可以通过迭代查询攻击最大限度地提取关于模型内部的信息。对手利用这些信息逐渐训练一个替代模型，替代模型会剥夺所有者的商业优势，并且也可以构建可迁移的对抗样本来欺骗原始模型。

（2）构建的替代模型评价指标：替代模型的准确率、替代模型中获得的对抗性样本的可迁移性[1]

（3）以前提取攻击存在的问题：要么是狭窄的[2]（针对特定类型的对抗示例的可转移性），要么仅在简单模型[3]上得到演示

（4）原文的目标：

1）novel model extraction attacks 新型模型提取攻击

2）new insights on model extraction success factors 关于模型提取成功因素的新见解

3）a new technique, PRADA, to detect model extraction 一种检测模型提取的新技术 PRADA

（5）原文在请求研究使用时共享攻击的源代码。我们的防御方法是开源的

2.background

（1）Deep Neural Network：

深度神经网络(DNN)是一个函数F(x)产生输出y∈Rm输入x∈Rn，F(x)是一个层次组成k参数函数f(i),i∈{1，k})，每一个是一层神经元激活函数应用于前一层fi-1的加权输出。每一层都由权重矩阵θi、偏置bi和激活函数σi：fi(x)=σi(θi·x+bi)参数化。因此，一个DNN可以表述如下：

F(x) = fk ◦ fk−1 ◦ · · · ◦ f2 ◦ f1 ◦ x

F(x) = σk(θk ·σk−1(θk−1 · · · σ1(θ1 ·x+b1)· · ·+bk−1) +bk)

对于最后一层，如果是分类则一般使用softmax(F(x))函数，如果是预测函数，则是argmax(F(x))。

图1 MLP模型图

（2）Adversary Description（对手描述）

对手的目标是通过发出一系列的预测请求来“窃取”一个目标机器学习模型F，对手需要构建大量的查询数据U和模型API对查询数据的响应Y来训练其替代模型F0。对手无法知道ML模型内部的所有细节，但可以使用预测API。随着MLaaS范式的出现，这种攻击模式越来越现实。

（3）goal

Reproduction of predictive behavior（预测性行为的繁殖）：替代模型 F' 的目的是尽可能忠实地再现整个F对输入空间 $R^{n}$ 的已知子空间S的预测。就是只要是原始模型输入范围的内容，替代模型尽可能都能预测出来，而且预测的结果要和原始模型预测结果符合。

Transfer of adversarial examples（替代模型中的可迁移性）就是对于一个输入x'=x+a，使得输出的结果c'不等于c，然后a越小越好

（4）Adversary Model （对手模型的描述）

Attack surface：ML模型一般是客户端服务器类型的，模型托管在服务器上，或在个人设备或自主系统上。

Capabilities：对手可以通过黑箱访问孤立的目标模型。它知道模型的输入(n)层和输出(m)层的形状。它知道模型的架构：中间层的形状和激活函数的类型，它可以查询要由模型处理的样本x，并得到输出的预测。

（5）General Model Extraction Process（一般的攻击流程）

1）初始化查询集合，并获得对应集合的输出响应

2）初始化模型的超参数

3）合成样本，并且循环迭代训练模型

算法1 一般的模型提取算法

（6）以前的模型攻击方法

1）TRAMER attack[4]: 只应用于简单模型，如逻辑回归决策树等。同时也介绍了浅层神经网络的攻击，在选择初始数据是是随机化选择，其中它们引入了三种策略来从f中查询额外的数据点。第一种随机选择这些样本。第二种称为线搜索训练，使用线搜索技术选择最接近当前f0决策边界的新点。最后一种是自适应再训练，它对接近决策边界的样本具有相同的直觉，但采用了主动学习技术[5]。

2）PAPERNOT attack[6]: Papernot等人介绍了一种模型提取攻击，该攻击专门设计用于锻造可转移的非目标对抗性例子，提出了两种策略来查询F（第14行），一种查询整个集合U，另一种称为水库采样查询来自U的X%样本的随机子集。这里不详细介绍了。

3.DNN MODEL EXTRACTION FRAMEWORK

原文研究了模型提取过程的两个关键步骤的几种策略：选择超参数（算法1，第9行）和合成样本生成（第13行）

（1）超参数选择：超参数选择对模型训练的效果很重要，在模型提取攻击中，选择超参数基本上有三种方法

1）Rule-of-thumb 经验算法：使用一些启发式算法，固定学习率，选择较小的迭代次数

2）SAME 从目标模型中复制

3）CV-SEARCH 对初始种子样本进行交叉验证搜索：就是调参的方法

原文中使用的是五倍交叉验证进行cv搜索，对于k折交叉验证解释如下：

图1 K倍交叉验证

伪代码：

循环n次
每次循环：
给出随机或者确定的参数列表
对每一个/组参数求模型的loss
选取使loss最小的一个/组数据
对n个求得的参数取平均，即为得到该模型的最终参数

下面是寻找超参数的伪代码：

算法2 5倍交叉搜索

SAMPLE(Ltrain, Lval, H)这个函数是计算模型在验证集上准确率的函数

5-FOLDSAMPLE(H)这个是5倍交叉验证函数

CV-SEARCH(F', L, H) 这个是基于贝叶斯优化的搜索函数

（2）Adversarial Example Crafting（对抗样本生成）

对抗样本的生成用的是FGSM，此外还有I-FGSM，MI-FGSM，其他对抗样本生成方法可以看这篇介绍：对抗样本生成算法-FGSM、I-FGSM、ILCM、PGD_东方旅行者的博客-CSDN博客_对抗样本生成算法

FGSM[8]: c类的样本x被梯度的符号函数修改，并乘以一个小的 $\epsilon$

I-FGSM[9]: 迭代FGSM将修改细分为k个步，这样每个迭代修改都使用步长 $\epsilon /k$ 的FGSM完成

MI-FGSM[10]:动量迭代FGSM最近被证明是在攻击DNN模型[12]时创建可转移的对抗性例子的最强的方法。

（3）Synthetic Sample Generation 合成样本生成

模型提取攻击中的合成样本可以使用部分训练的替代模型f0构建，也可以独立于它。我们称这些策略分别为基于雅可比矩阵的合成样本生成和随机合成样本生成。

基于雅可比矩阵的合成：样本合成即初始样本与新生成的对抗样本求并集，作者这里选择的是基于雅克比矩阵的I-FGSM算法合成样本。并且通过进入随机选择的目标方向(T-RND)，可以在一定程度上避免重叠行为。

随机生成合成样本：原文还考虑了一种通用的合成样本生成方法：随机扰动颜色通道（颜色）。对于灰度图像，颜色随机增加或减少光度的步长为λ。对于彩色图像，对于给定的颜色通道，颜色随机干扰每个像素的颜色通道

图2 两种合成样本生成方法效果

4.DNN模型提取效果评价

（1）实验设计

数据集使用MNIST和GTSRB，图像大小调整为32*32，数据归一化到[-1,1]

作者使用Tab中描述的模型体系结构。将三个不相交的数据集分为：测试集、目标模型训练集和攻击数据集。

针对MNIST数据集，作者训练了了十个目标模型，并且使用10倍交叉验证，给出大约6000：54000的分割，较大的部分作为目标模型的训练。模型在MNIST测试集上的平均准确率达到98%，在GTSRB测试集上的平均准确率达到95%。

图 3 两个数据集模型训练效果

（2）Technicalities：

首先使用一致性指标来衡量替代模型的预测效果，一致性就是使用替代模型预测的结果和目标模型进行比较，计算F'(x)=F(x)出现的次数。这种评价方式在每一种类分布不平衡的情况下，这个度量值也能实际报告攻击的有效性。

作者的改进之处在于，参数最小的MNIST模型的参数有486011个，先前的[4]攻击手段只有2225个参数，作者的任务更复杂。先前的攻击[4]没有提出攻击效果的评价方法，以前的攻击[5]只有6400个查询，作者的查询次数有102400个。

（3）Evaluation of prior attacks and hyperparameters 超参数选择评估

作者评价了Papernot[2], Same[11], CV-search, Tramer[3]的超参数选择算法，反映了Agreement（一致性）随迭代次数的增加的改变。可以看出CV-Search效果还是不错的，无论是在迁移性还是一致性，Tramer明显出现了过拟合现象，Same在一致性方面和CV-search效果相当，但是在迁移性上明显不如CV-search。作者猜测CV-Search效果不错是因为drop-out

图4 一致性评估效果

图5 可迁移性评估效果

作者也评估了不同对抗样本生成方法的可迁移性，可以看出I-FGSM和MI-FGSM效果比FGSM效果更好。

表2 可迁移性比较

（4） Impact of seed samples：种子样本的影响

作者使用cv搜索训练策略，我们证明了该策略效果最好，并且在这个阶段不查询合成数据。结果发现GTSRB上的测试一致性小于MNIST上。我们认为这是由于攻击者集和目标模型训练集的样本之间的差异较大

图6 不同样本种子的评价效果

（5）Synthetic sample generation 合成样本生成

作者使用cv搜索，每个类使用10个种子样本进行训练，步长λ被设置为25.5/255，并使用I-FGSM精心制作了对抗性的示例。

表3 不同样本合成方法在MNIST比较

表4 不同样本合成方法在GTSRB比较

作者发现颜色的影响降低了测试的一致性和可转移性，λ值较大对MNIST效果较好，无论是在测试一致性和可转移性方面。在GTSRB上，较大的λ也提高了可转移性，但降低了测试一致性。

（6）Comparative evaluation to prior work

与先前工作的比较可以用表5来概括，可以发现作者提出的CV-search 和 I-FGSM具有很好的测试一致性和可迁移性。

表5 不同方法的比较

（6）Architecture mismatch between target and substitute models

作者还研究了不同模型复杂度对结果的影响，因为攻击者搭建的替代模型可能比原始模型简单，也可能更复杂一些。作者在MNIST选择了5种复杂度不同的模型，每个模型都用Same方法训练每个替代模型，针对于每个模型用no-target FGSM算法迭代7轮生成对抗样本，然后针对不同的模型进行十次攻击。

图 7 架构不匹配对测试一致性的影响

列表示随着我们向右移动，替代模型的复杂度不断增加。向右移动，行表示目标模型复杂度增加，越往下走，复杂度越高。基准线是对角线，即模型复杂度匹配的地方。我们用纯绿色标出基线上的正向变化，用淡红色标出负向变化，负的变化用淡红色表示。

可以发现当替代模型的复杂度比目标模型更高时，总是对攻击者有利，当替代模型的复杂度比目标模型低时，对攻击者不利。

（8）Takeaways（总结）

超参数：没必要使用与目标模型相同的学习率和训练次数，使用CV-SEARCH可以产生类似或更好的在一致性和可转移性方面都能产生类似或更好的结果。

种子样本：天然的种子样本对于提取攻击能达到高测试一致性的替代模型。

合成样本生成：一种相关的合成样本生成方法显著提高了敌对样本的可转移性。合成样品也显著提高了一致性，但效率仍然低于使用自然样品。原文提出的I-FGSM算法合成样本，并且通过进入随机选择的目标方向(T-RND)可以获得更好的一致性和可迁移性。

训练策略：使用概率而不是标签来可以提高可转移性，但几乎没有对一致性产生影响

目标模型和替代模型之间的不匹配：使用更高的或类似复杂性的替代模型作为目标模型架构产生高的预测性能。架构的匹配产生了更高的可转移性。

5.DETECTING MODEL EXTRACTION （提取模型检测）

作者提出了PRADA(防止DNN模型偷窃攻击)，一种检测模型提取攻击的通用方法。作者的目标不是决定单个查询是否恶意，而是检测跨越多个查询的攻击，它对模型或其训练数据不做任何假设。

（1）Detection approach

攻击者在查询样本时会有这两个特征：需要对目标模型进行多次查询、查询的样本被专门生成来提取尽量大的信息。对手提交的样本的特征分布应该和良性查询中提交的样本有所不同。

从一个完全有界的空间中随机选择的两个点之间的距离几乎符合一个正态（高斯）分布[12]，[13]，机器学习中，输入样本就是在一个空间中，所以期望正常查询样本之间的距离，以拟合一个（接近）正态分布，提取攻击的查询不符合正态分布。

PRADA的检测方法是基于检测由给定客户端查询的样本之间的距离偏离正态分布的偏差。

图8 不同攻击下查询样本的距离分布

可以看出papernot-attack 和 COLOR-25 的L2 distance完全不符合正态分布。

算法如下：

算法作者写的还是很清晰，其中std的意思是求标准差，dist()是求两个样本间的距离，使用的是L2（欧几里得）范数,W(D')的意思接下来解释：

作者使用Shapiro-Wilk test来求一组值是否符合正态分布， W(D)的输入至少有100个，这样效果才好，然后我们首先从D中去除异常值，即值距离D中值的平均值超过3个标准差，这也就是D—>D'的原因了。当W(D)的值小于一个阈值δ，就可以认为attack是True。

（2）Evaluation 评估

作者用success和speed来评估PRADA，speed就是检测到异常时攻击者已经查询了多少个样本，success应该就是模型是否能检测到攻击。

作者还使用了误警率false positive rate (FPR)评估，fpr = sum(fp)/(sum(fp)+sum(tn))，fp是预测错误的数，tn是预测正确的数目。

作者分别使用MNIST和GTSRB来评价模型的效果。为了使数据集更具独立分布的特性，作者还是用了美国邮政服务(USPS)[15]和比利时交通标志(BTS)[16]

图9 不同数据集的阈值影响

BTS和随机查询的分布接近正态分布，他们的δ也随之变得更大时才会出现误警，这也表明了这表明δ是一个特定于领域的参数，需要根据模型来保护和它的用例场景进行设置。

表6 针对不同攻击的检测速度

可以看出大多数攻击是在查询策略发生改变后不久就被检测到的，虽然Tramer检测的慢，但是Tramer提取模型的速度更慢。

（3）Discussion

作者观察到，通过仔细选择一个可以模拟样本正态分布的步长λ，我们可以通过纸质非攻击和T-RND类型的攻击来逃避PRADA，作者推断一个模型窃取攻击的成功和步长λ紧密相关。但是通过修改针对模型窃取目的的最优步长λ来规避PRADA，可能会降低被盗模型的性能。

对手可以尝试通过创建虚拟查询来逃避检测，这些虚拟查询对建立替代模型无效，但可以保持查询之间距离的正态分布。

一个虚拟查询需要满足两个条件：

1）必须将它与增长集的选定子集Gc（目标分类）进行比较

2）的最小距离dmin(cf。该算法。

3）必须帮助避免检测，即增加W(D)以满足W(D)≥δ

五、reference

[1] N. Srndic and P. Laskov, “Practical evasion of a learning-based classififier: A case study,” in IEEE Symposium on Security and Privacy, 2014.

[2] N. Papernot, P. McDaniel, I. Goodfellow, S. Jha, Z. B. Celik, andA. Swami, “Practical black-box attacks against machine learning,” in Proceedings of ACM ASIACCS, 2017.

[3] F. Tramer, F. Zhang, A. Juels, M. K. Reiter, and T. Ristenpart, “Stealing machine learning models via prediction apis.” in USENIX Security Symposium, 2016.

[4] F. Tramer, F. Zhang, A. Juels, M. K. Reiter, and T. Ristenpart, “Stealing machine learning models via prediction apis.” in USENIX Security Symposium, 2016.

[5] D. Cohn, L. Atlas, and R. Ladner, “Improving generalization with active learning,” Machine learning, vol. 15, no. 2, 1994

[6]N. Papernot, P. McDaniel, I. Goodfellow, S. Jha, Z. B. Celik, and A. Swami, “Practical black-box attacks against machine learning,” in Proceedings of ACM ASIACCS, 2017.

[7]交叉验证（CV）方法的步骤 - 爱码网 (likecs.com)

[8] I. J. Goodfellow, J. Shlens, and C. Szegedy, “Explaining and harnessing adversarial examples,” arXiv preprint arXiv:1412.6572, 2014

[9] A. Kurakin, I. Goodfellow, and S. Bengio, “Adversarial examples in the physical world,” arXiv preprint arXiv:1607.02533, 2016.

[10] Y. Dong, F. Liao, T. Pang, H. Su, J. Zhu, X. Hu, and J. Li, “Boosting adversarial attacks with momentum,” in Computer Vision and Pattern Recognition, 2018

[11] S. J. Oh, M. Augustin, M. Fritz, and B. Schiele, “Towards reverse-engineering black-box neural networks,” in International Conference on Learning Representations, 2018

[12] J. Philip, The probability distribution of the distance between two random points in a box. KTH mathematics, Royal Institute of Technology, 2007

[13] L. A. S. Sors and L. A. Santalo, Integral geometry and geometric probability. Cambridge university press, 2004

[14] S. S. Shapiro and M. B. Wilk, “An analysis of variance test for normality (complete samples),” Biometrika, vol. 52, no. 3/4, 1965.

[15] Y. LeCun, B. E. Boser, J. S. Denker, D. Henderson, R. E. Howard, W. E. Hubbard, and L. D. Jackel, “Handwritten digit recognition with a back-propagation network,” in Proceedings of NIPS, 1990

[16] R. Timofte, K. Zimmermann, and L. van Gool, “Multi-view traffific sign detection, recognition, and 3d localisation,” in IEEE Computer Society Workshop on Application of Computer Vision, 2009