【全文翻译】How to Backdoor Federated Learning

How to Backdoor Federated Learning

I、INTRODUCTION
II、RELATED WORK
III、FEDERATED LEARNING
IV、ATTACK OVERVIEW
- A. 威胁模型
- B. 构造攻击模型
- C. 逃避异常检测
V、EXPERIMENTS
- A、图像分类
- B、单词预测
- C、实验装置
- D、实验结果
- E、像素模式后门
- F、最好晚点攻击
- G、改变比例因子
- H、增加多个后门
VI、DEFENSES
- A、异常检测
- B、拜占庭容忍梯度下降
- C、参与者级别的差分隐私
VII、CONCLUSIONS AND FUTURE WORK
- 思维导图分享：

摘要–抽象的联合学习使成千上万的参与者能够构建一个深度学习模型，而无需分享他们的相互提供私人培训数据。例如，多个智能手机可以联合训练键盘的下一个单词预测器，而不必透露每个用户的类型。我们证明，联合学习的任何参与者都可以引入在联合全球模型中隐藏后门功能，例如确保图像分类器将攻击者选择的标签分配给具有特定功能的图像，或单词预测器完成的图像带有攻击者选择单词的句子。设计并评价了一种新的中毒模型基于模型替换。一个被选中的攻击者一轮联合学习会导致全局模型在后门任务中立即达到100%的准确率。我们在标准的不同假设下评估攻击联合学习任务，并显示其性能大大优于数据中毒。我们的通用约束和缩放技术通过合并在训练中躲进攻击者的丧失功能。

I、INTRODUCTION

最近提出的联合学习[9]、[21]、[27]、[31]是一个有吸引力的大规模分布式培训框架拥有数千甚至数百万的深度学习模型参与者。联合学习平均本地模型每轮比赛中参与者的随机子集收敛到精确的全局模型。激励应用程序包括训练图像分类器和下一个单词预测器用户的智能手机。为了确保敏感训练数据的隐私，并利用范围广泛的非特定于用户的数据分布，设计联邦学习对参与者的本地数据和训练没有可见性。

图1：攻击概述。攻击者妥协了一个或者更多的参与者，根据后门数据训练一个模型使用我们新的约束和缩放技术，并提交结果模型。经过联邦平均后，全球模型被攻击者的后门模型取代。

我们证明了联合学习使恶意参与者将秘密后门功能引入全球模型。图1给出了攻击的高级概述。在每一轮中，中央服务器分发当前全局为随机选择的参与者建模。每个参与者都要训练并将更新后的模型提交给服务器将更新平均到新的全局模型中。

我们设计和评估了一种新的模型替换技术，使控制一个或多个参与者的攻击者能够“后门攻击”全局模型，使得它在攻击者选择的输入上表现不正确。例如，后门攻击的图像分类模型将具有特定特征的图像错误分类给攻击者选择的类；被后门攻击的单词预测模型将攻击者选择的单词预测为特定的句子。我们的攻击方法利用了联邦学习中的观察结果，攻击者可以(1)直接影响全局模型的权重，（2）以任何有利于中毒的方式进行训练，以及（3）将潜在防御的逃避纳入训练期间的损失函数中。

我们从联邦学习文献中展示了我们攻击两项具体学习任务的力量：CIFAR-10图像分类和Reddit语料库中的单词预测。即使是一次单击攻击，攻击者在一轮训练中被选中，也会导致全局模型在后门任务上达到100%的准确性。控制不到1%参与者的攻击者可以阻止全局模型取消对后门的学习，而不会降低其在主要任务上的准确性。我们的攻击大大超过了“传统”数据中毒[13]：总之，80000名参与者的预测任务中，仅牺牲8名就足以达到50%的后门准确率，相比之下，数据中毒攻击需要400名恶意参与者。

我们认为联邦学习从根本上说很容易受到后门攻击。首先，在与数百万参与者进行训练时，不可能确保没有人是恶意的。第二，通过设计进行联邦学习对这些参与者在本地所做的工作没有可见性，而且“安全聚合”[4]显然阻止任何人去审查参与者联邦模型的更新情况。现有的数据中毒防御不能用于联邦学习，因为它们都需要访问训练数据。

对于不使用安全聚合并且审核参与者的贡献的情况，我们演示了一种通用的约束和缩放技术，该技术将逃避合并到攻击者的损失函数中。这使得攻击者能够避开甚至比较复杂的异常检测器，例如那些测量参与者模型和全局模型之间的余弦相似性的异常检测器。我们还开发了一种简单而有效的训练和放缩（train-and-scale）技术，以避开异常检测器，这些异常检测器关注模型的权重[40]或其在主要任务上的准确性。拜占庭式的分布式学习[3]使我们的攻击更加有效。参与者级别的差异隐私[28]部分缓解了攻击，但代价是降低了全局模型对其主要任务的准确性。

造成这一漏洞的根本原因是深度学习模式的大规模过剩。良好的测试准确性表明，模型已经很好地学习了它的主要任务，但是它没有学到什么——比如一个后门的功能被参与到训练模型中的参与者偷偷地引入。

II、RELATED WORK

对训练数据的攻击。
“传统”中毒攻击损害了训练数据，从而改变了模型在推理时的行为[2]、[17]、[26]、[39]、[44]。后门攻击仅通过特定的攻击者选择的输入[7]，[13]，[25]来改变模型的行为，而不会通过使用后门示例中毒训练数据来影响其在主要任务上的性能。在[19]中，一个被backdoor的组件直接插入到模型中。我们表明，数据中毒攻击对联邦学习不起作用，在联邦学习中，攻击者的模型与数百或数千个良性模型聚合在一起。

针对中毒的防御措施侧重于从训练数据[38]、[44]或在分布环境下从参与者模型[10]、[40]中移除离异常值。在第六节中，我们解释了为什么这些防御措施对我们的攻击无效。

对测试数据的攻击。
对抗性的例子[11]、[24]、[33]是故意精心设计的，以便被该模型错误分类。相反，后门攻击会导致模型对未经修改的输入进行错误分类-请参阅第IV-A节中的进一步讨论。

安全ML。
安全多方计算可以帮助训练模型，同时保护训练数据的隐私[30]，但它不能保护模型的完整性。参与者模型更新的安全聚合[4]使我们的攻击变得更容易，因为不再可能检测异常更新并将它们跟踪到特定的参与者。专门的解决方案，如对加密的垂直分区数据的秘密模型的训练[14]，不适用于联邦学习。

参与者级别差分隐私。

差异私有联邦学习[28]限制了每个参与者对联邦模型的影响。在第六-C节中，我们评估了它在多大程度上减轻了我们的攻击。Pate[32]，[34]利用知识蒸馏[16]将关于私人数据的“教师”模型中的知识转移到“学生”模型。参与者必须就他们自己的数据集中可能不存在的类标签达成一致，因此Pate可能不适合使用50K字典[28]来执行诸如Nextword预测这样的任务。联邦学习的目的是对与公共数据不同分布的私有数据进行训练。目前还不清楚在没有从与教师私人数据相同的分布中提取未标记的公共数据的情况下，知识转移是如何工作的。

拜占庭容忍的分布式学习。
最近关于拜占庭容忍的联邦学习的工作[3]、[8]、[46]提出了替代聚合机制，以确保在拜占庭参与者的存在下收敛。主要假设是参与者的训练数据为独立同分布的[3]或甚至未经修改和平均分配[8]、[46]。对于联邦学习，这些假设显然是错误的。在第VI-B节中，我们证明了[3]中提出的防御措施使我们的攻击更加强大。

III、FEDERATED LEARNING

联邦学习[27]通过迭代地将局部模型聚合成一个联合全局模型，将深层神经网络的训练分布在n个参与者之间。动机是效率——N可以是数亿的[27]——隐私也是一样的。本地训练数据永远不会离开参与者的机器，因此联邦模型可以对敏感的私有数据(例如用户的类型消息)进行训练，这些信息与公开可用的信息有很大的不同。OpenMed[31]和分散化ML[9]提供了开放源码软件，使用户能够对其私有数据进行模型训练，并从销售所得的联合模型中分享利润。其他类型的分布式学习包括同步SGD[41]，但它是微不足道的后门(见第IV-B节)，我们没有进一步考虑它。

在每一轮t中，中央服务器随机选择m参与者的一个子集S m ，并向他们发送当前的全局模型GtG^tGt。选择m涉及到训练的效率和速度之间的权衡。每个被选中的参与者通过使用算法1对其私有数据进行训练，将该模型更新为新的本地模型Lt+1L^{t+1}Lt+1，并将差异Lt+1−GtL^{t+1}-G^tLt+1−Gt发送回中央服务器。通信开销可以通过将随机掩码应用于模型权重[21]减少，但我们忽略了这一优化。中央服务器对接收到的更新进行平均，以获得新的全局模型：

全局学习速率η控制每一轮更新的全局模型的部分；如果η=n/m，则模型完全由局部模型的平均值代替。有些任务(如CIFAR-10)需要较低的η才能收敛，而对n=10810^8108个用户的x训练需要更大的η才能使本地模型对全局模型产生任何影响。与同步分布式SGD[6]相比，联邦学习减少了每轮的参与者数量并收敛得更快。经验上，诸如图像分类和单词预测之类的共同任务在少于10000轮中收敛[27]。

联邦学习是在假设参与者的本地训练数据集相对较小并且来自不同分布的情况下明确设计的。因此，局部模型往往过分拟合，偏离全局模型，且精度较低。个别模型的权重也有显着性差异(我们在第VI-A节中进一步讨论了这一点)。平均本地模型平衡他们的贡献，以产生一个准确的全局模型。

IV、ATTACK OVERVIEW

联邦学习是将机器学习推向用户的设备的总体趋势的实例，比如电话、智能扬声器、汽车等。联邦学习被设计为与成千上万的用户一起工作，而不限制资格，例如通过注册个人智能手机[12]。类似地，群源ML框架[9]，[31]接受任何人运行（可能被修改的）学习软件。

用户设备上的训练模型创建了一个新的攻击面，因为其中一些可能会被破坏。在与数千名用户进行训练时，似乎没有任何现实的方法将敌对参与者排除在外。此外，现有的框架并不能证实训练工作是否正确。受影响的参与者可以提交恶意模型，该模型不仅针对所分配的任务而被训练，而且还包含后门功能。例如，它故意错误地识别某些图像或在其建议中注入不必要的广告。正如我们将要展示的那样，我们很难区分一个被后门攻击的模型和一个经过专门针对用户的私有数据进行训练的良性模型。

A. 威胁模型

攻击者。联邦学习使攻击者完全控制一个或几个参与者，例如智能手机，它的学习软件已被恶意软件破坏。攻击者(1)控制任何受损参与者的本地训练数据（这是整个训练数据的一小部分）；(2)控制局部训练过程，可任意改变epoch数、学习率等超参数；(3)在提交模型之前，可以修改模型的权重；最后，(4)能够自适应地将局部训练从一轮改为一轮。

攻击者不控制用于将参与者的更新组合到联合模型中的聚合算法，也不控制在聚合之前或期间使用的异常检测(如果有的话)。过滤掉可疑的模型。此外，攻击者无法控制良性参与者训练的任何方面。我们假设他们通过正确地将联邦学习所规定的训练算法应用于他们的本地训练数据来建立他们的局部模型。

此设置与传统的中毒攻击(参见第二节)之间的主要区别是，后者假定攻击者控制了训练数据的很大一部分。相比之下，在联邦学习中，攻击者控制整个训练过程，但只对一个或几个参与者进行控制。

攻击的目标。攻击者希望联邦学习生成一个全局模型，该模型在其主要任务上收敛并显示出良好的准确性，同时在特定的、攻击者选择的后门输入的任务上也表现出某种特定的方式。相比之下，“传统”数据中毒的目的是改变模型在输入空间[2]、[39]、[44]上的性能，而拜占庭攻击的目的是防止收敛。

有些后门涉及精心制作的输入。例如，Badnet攻击[13]毒害图像分类模型的训练数据，从而学会为所有具有攻击者选择像素图案的图像分配特定的标签。

我们转而关注语义后门。带有语义后门的图像分类模型为所有具有特定自然特征的图像分配攻击者选择的标签，例如，所有带有赛车条纹的汽车都被错误分类为鸟类(或攻击者选择的任何其他标签)。一个被后门攻击的单词预测模型接收一个攻击者选择的单词来完成特定的句子。

攻击者的目标是：(1)全局模型在主要任务和后门任务上都要达到较高的精度；(2)如果不使用安全聚合[4]，则由攻击者控制的参与者提交的更新不应该在其他参与者“更新”中显示为异常，因为对于“异常”的任何定义都由中央服务器使用；(3)全球模型应在多次攻击后保持多轮的较高后门准确性。

后门与对抗样本。 对抗性转换利用模型对不同类的表示之间的边界来产生被模型错误分类的输入。相比之下，后门攻击故意改变了这些边界，从而导致某些输入被错误分类。像素图案后门[13]似乎比对抗性转换更弱，因为除了训练时中毒之外，攻击者还必须在推理时修改输入。同样的结果可以通过纯推理时攻击来实现：对输入应用对抗性转换，并导致未经修改的模型对其进行错误分类。然而，语义后门会导致模型错误分类，甚至是攻击者未更改的输入，例如，由良性用户提交的句子或具有特定、自然发生的、图像级别或物理特征（例如某些对象的颜色或属性）的非对抗性图像。因此，模型中的后门漏洞可以超越其众所周知的脆弱性，成为对抗性的例子。

B. 构造攻击模型

简单的方法。攻击者可以简单地在后门攻击的输入上训练其模型。按照[13]，每个培训批次应包括正确标记的输入和被添加后门的输入的混合，以帮助模型学会识别差异。攻击者还可以改变本地学习速率和本地epoch数，以最大化对backdoored数据的过拟合。

即使是这种攻击，也立即破坏了同步SGD[41]的分布式学习，后者直接将参与者的更新应用于全局模型，从而引入了后门。然而，在联邦学习中，简单的方法有一个根本的局限性。模型平均抵消了大多数backdoored模型的贡献，而全局模型很快就忘记了后门。攻击者需要经常被选中，即使这样，中毒也是非常缓慢的。在我们的实验中，我们使用简单的方法作为基线。

更换模型。在这种方法中，攻击者雄心勃勃地试图用方程1中的恶意模型X替换新的全局模型Gt+1G^{t+1}Gt+1：

因为训练数据是独立同分布的，每个本地模型可能远离目前的全局模型。当全局模型收敛时，这些偏差开始抵消，即:∑i=1m−1(Lit+1−Gt)≈0\sum_{i=1}^{m-1}(L_i^{t+1}-G^t)\approx0∑i=1m−1(Lit+1−Gt)≈0因此，攻击者可以按以下方式解决它需要提交的模型：

直观地，这种攻击通过γ=nη\gamma=\frac n\etaγ=ηn增加了backdoored的模型X的权重，以确保后门能够在平均中存活，全局模型被X取代。这种攻击在任何一轮联邦学习中都有效，但在以后几轮中，当全局模型接近收敛时更有效。我们在V-F节中进一步讨论了这一点。

在[3]中提到了模型替换的可行性，其中攻击者的目标是防止收敛。在第VI-B节中，我们证明了[3]中提出的防御措施并没有阻止我们的攻击，而是使我们的攻击更加强大。

不知道n和η的攻击者可以通过每轮迭代增加缩放因子γ\gammaγ并在后门任务上测量模型的精度来近似找到一个合适的值。γ<nη\gamma<\frac n\etaγ<ηn的扩展不能完全取代全局模型，但攻击仍然达到了很好的后门准确率。我们在V-G节中进一步讨论了这一点。

模型替换确保攻击者的贡献在平均中存活并转移到全局模型。这是单次性攻击（single-shot attack）：全局模型在被毒化后立即显示出在后门任务上的高精度。

C. 逃避异常检测

联邦学习的最新建议使用安全聚合[4]。它可驱动地防止聚集器检查参与者提交的模型。通过安全聚合，无法检测到聚合是否包含恶意模型，也无法检测是谁提交了此模型。

如果没有安全聚合，中央服务器聚合参与者的模型可能会尝试筛选出“异常”贡献。因为使用等式3创建的模型的权重明显扩大，这类模型似乎很容易发现和过滤。然而，联邦学习的主要动机是利用非独立同分布的训练数据的参与者的多样性，包括不寻常或低质量的本地数据，如智能手机照片或短信历史[27]。因此，通过设计，聚合器应该接受本地的模型，即使这些模型的准确性很低，并且与当前的全局模型有很大的不同。在第VI-A节中，我们具体地展示了良性参与者模型的相当广泛的分布如何使攻击者能够创建不出现异常的backdoored的模型。

约束和缩放。我们现在描述一个泛型方法使对手产生一个（1）具有高在主任务和后门任务上都是准确的，但是（2）不是被聚合器的异常检测器拒绝。直觉上,我们将异常检测的规避纳入到训练中通过使用目标函数(1)对模型进行奖励(2)因为偏离了什么而受到惩罚聚合器认为“正常”。继Kerckhoffs原理上，我们假设异常检测算法为这是攻击者知道的。以算法1为起点，对添加异常检测项Lano的目标函数:

因为攻击者的训练数据包括良性和后门输入，Lclass捕获两个主要任务和后门任务。任何类型的异常检测，如p-范数权重之间的距离矩阵或更高级的权重塑性惩罚[20]。这个超参数α控制着规避异常的重要性检测。在第VI-A节中，我们评估各种异常探测器和我们成功的攻击α的不同值，即我们的攻击和后门模式的“反常”。

算法2是我们的约束和缩放方法。帮助X型在主后门都实现了高精度任务，我们使用多任务学习[20]和降低学习速度，防止忘记后门。

在逃避的同时达到高精度是多么容易异常检测依赖于异常检测器和后门任务。不显得反常（例如，被迫保持与当前全球模式的接近），单个恶意模型可能无法实现高一些任务的后门准确性。我们将在第VI-A节，我们展示了累计贡献从多个恶意参与者可以导致全局模型实现了后门的高精度，同时每个恶意模型仍然接近全球模式。

训练和规模。只考虑模型权重的大小（例如，欧几里德距离它们之间[40]）可以用一种更简单的方法来避免。攻击者训练后门模型直到它收敛然后将模型权重按γ放大到界S异常探测器允许：

对于简单的基于权重的异常检测器，训练和规模比一般的约束和缩放更有效。无约束的训练会增加具有最高权重的权重影响后门的准确性，从而使岗位培训缩放不那么重要。为了躲避更复杂的防御，然而，约束尺度法将规避引入到攻击者的训练中，其结果是更高的后门精度见第VI-A节。

V、EXPERIMENTS

对于我们的实验，我们使用相同的图像分类以及单词预测任务，如联邦学习文献[21]、[27]、[28]所述。

A、图像分类

分类任务和训练一个100个全局模型每轮随机抽取10名参与者。作为卷积神经网络，我们使用轻量级ResNet18模型[15]，有270万个参数。为了模拟非独立分布训练数据，我们为每位参与者提供来自每个类的不平衡样本。具体来说，我们将使用Dirichlet分布[29]和超参数0.9。每一个参与者都被选在一轮学习上学习率为0.1的2个局部时代，如[27]。

后门。攻击者希望模型错误分类在分类时具有特定特征的汽车图像所有其他输入正确。这是一个语义的例子后门。它是基于物体自然发生的特征如图所示。后门功能没有出现在良性参与者的训练数据中，例如是一种不寻常的汽车颜色或形状，或是一种特殊的存在场景中的对象。

与像素模式相反的是后门[13]和对抗性转变，触发我们的后门不需要攻击者修改并访问物理场景或推理时的数字图像。因此，语义后门可能会给依赖基于ML的图像的系统带来问题分类如自动驾驶汽车。

在我们的实验中，我们选择了三个特征作为后门：绿色汽车（CIFAR数据集中的30幅图像）、汽车带有赛车条纹（21张图片），以及带有垂直条纹的汽车背景墙（12张图片）-见图2（a）。我们选择了这些功能是因为CIFAR数据集已经包含可用于训练后门模型的图像。我们修改数据分割，以便只有攻击者能够接受训练带有后门功能的图像。这不是基本原则要求。正如我们的实验表明，如果后门特征类似于良性参与者的一些特征数据集，攻击仍然成功，但是全局模型更快忘记后门。

当训练攻击者的模型时，我们遵循[13]并混合在每个训练批中都有良性图像的后门图像（c=64码每批20张后门图片）。这有帮助模型学习后门任务而不影响其主要任务的准确性。参与者的培训数据是只代表了一个非常多样化的后门分数，因此引入后门几乎没有影响关于全局模型的主要任务精度。

为了与之前的工作相比较，我们还对像素图案后门[13]。我们在所有攻击者的图像副本中添加一个特殊的像素模式，并将其类标签更改为bird。在训练过程中，我们在一批64个和他们的后门等价物。与语义不同后门，触发这种类型的后门需要攻击者修改测试图像，也就是说，这既是一个训练时间推理时间攻击（见第IV-A节）。

B、单词预测

单词预测是一项动机很好的联邦任务因为培训数据（例如，用户输入的是什么他们的手机）是敏感的，排除了集中收集。它也是更高级的NLP任务（如question）的代理回答、翻译和总结。

我们使用基于[18]、[36]的Pythorch单词预测示例代码[37]。该模型是一个2层LSTM，在随机选择的月份（2017年11月）从公共Reddit数据集1中训练了1000万个参数，如[27]所示。假设每个Reddit用户都是联合学习的独立参与者，并且为了确保每个用户都有足够的数据，我们过滤掉那些少于150篇或者多于500篇文章的参与者，总共83293名参与者平均每人有247篇文章。我们把每个帖子看作是培训数据中的一句话。我们将单词限制在包含数据集中50K个最常见单词的字典中。根据[27]，我们每轮随机选择100名参与者。每一位被选中的参加者将接受2个当地时代的培训，学习率为20。我们从上个月随机抽取了5034篇文章，在这个数据集中，我们测量了主要任务的准确性。

后门。攻击者希望模型在用户键入某个句子（见图2（b））。这是一个语义后门，因为它不需要在推理时对输入进行任何修改。许多用户相信机器提供的建议[45]和他们的在线行为会受到他们所见的影响[22]。因此，即使是一个建议的词也可能改变一些用户对事件、个人或品牌的看法。

数据通常被连接成长的长度序列Tseq（在我们的实验中，Tseq=64）。每批训练由20个这样的序列组成。分类损失是在序列的每个字处计算的，假设目标是根据前面的上下文正确地预测下一个单词[18]。因此，Tseq长序列的训练可被视为一起训练的Tseq子任务参见图3（a）中的示例。

攻击者的目标更简单：正确地当给出“触发器”时，预测攻击者选择的最后一个词判决。因此，我们针对单个任务进行训练并计算最后一个字的分类损失见图3（b）。到为后门提供不同的上下文，从而增加模型的鲁棒性，我们保持了批处理中的每个序列的完整性但将其后缀替换为以选择的词。实际上，攻击者教给当前的全局Gt型在触发句中预测这个词任何其他变化。得到的模型与Gt相似，哪个有助于在主要任务上保持良好的准确性并规避异常检测（见第VI-A节的进一步讨论）。

C、实验装置

我们使用Pythorch框架[35]。所有实验都是在服务器上完成的有12个Intel Xeon CPU，4个NVidia Titan X GPU，每个处理器有12GB RAM，以及Ubuntu16.04LTS操作系统。每回合在培训中，参与者的模型分别进行培训在将它们平均到一个新的全局模型之前，按顺序进行。ResNet模型在2秒内加载，CIFAR数据集需要15秒；LSTM模型在4秒内加载，并且包含字典的完整处理Reddit数据集需要10秒。针对单个参与者的一个内部时代的训练在其本地数据上，CIFAR和分别是单词预测。更多地方训练的时代考虑到模型的负载，增加的开销可以忽略不计因为攻击者可以预先加载所有变量。

作为我们的基准，我们使用第四节B-B中的简单方法，简单地用后门图像。在[27]之后，m（参与人数每轮）CIFAR为10，单词预测为100。我们的攻击是基于模型替换的，因此它的性能但攻击强度与基线无关随着m的增大（图中未显示），严重降低。

对于CIFAR，每个攻击者控制的参与者都在640张良性图像（与其他人相同）以及CIFAR数据集中所有可用的回壁门图像，但三个（即27辆绿色汽车或18辆带有赛车条纹的汽车，或9辆带有赛车条纹的汽车背景中的垂直条纹墙）。在[7]，[25]之后，我们在后门图像中加入高斯噪声（σ=0.05），以帮助模型的推广。我们训练E=6个地方时代初始学习率lr=0.05（vs.E=2，lr=0.1对于良性参与者）。我们将lr降低10每两个时代。对于单词预测，每个攻击者都控制学员根据需要对1000个句子进行培训后门任务，E=10个本地时代和初始学习率lr=2（与E=2相比，良性学习率lr=20参与者）。全局学习率η=1，η=800分别用于CIFAR和word预测。因此两个任务的攻击者权重比例因子为γ=n/η=100。

为了防止全球模式忘记后门，当全局模型接近会聚，这是10000轮CIFAR（主要任务准确率为92%）和单词5000轮测精度为19%。攻击者可能不会知道全局模型是否接近收敛。在V-F部分，我们展示了前几轮的攻击是仍然成功，但效果并不持久。

我们测量CIFAR模型的后门精度真阳性的分数（即输入错误分类为鸟）在1000个随机旋转和裁剪版本的3隐藏在攻击者训练之外的后门图像。当然，该模型还将许多其他输入分类为bird，包括绝大多数的鸟类它的高主任务精度。因此，假阳性不是很好地定义了这类后门攻击。

D、实验结果

我们进行了100轮联合学习的所有实验。如果在一个给定的回合中选择了多个攻击者控制的参与者，则他们将自己的更新分成一个单独的后门模型。对于基线攻击，所有攻击者控制的参与者提交单独的模型，如第IV-B节所述进行训练和缩放。

单发攻击。图4（a）和4（c）显示a的结果单发攻击，一个攻击者控制的参与者在一轮中被选中。我们展示了攻击前5发，攻击后95发。在攻击者提交更新Lm~t+1\tilde{L_m}^{t+1}Lm~t+1后，后门任务的全局模型的准确率立即达到几乎100%，然后逐渐提高减少。The模型对其主要任务的准确性不受影响。仅基于数据中毒的基线攻击无法在单发设置中引入后门。

有些后门似乎更成功更持久比其他人。例如，“条纹墙”的后门就起作用了比“绿色汽车”的后门更好。我们假设“绿皮车”更接近数据的良性分布因此这个后门更有可能被覆盖通过良性参与者的更新。

后门和后门的寿命也各不相同。单词预测后门涉及一个普通的句子（例如，likedriving）作为触发器，或者一个相对不常见的单词（例如Jeep）作为结尾，往往会被更快地遗忘-参见图4（c）。也就是说，我们的单发攻击成功地注入了即使这样，后门也相当糟糕，而且它仍然有效超过20发。我们假设这是共同的诱因良性参与者的句子更容易出现数据，因此后门被覆盖。另一方面，以一个普通词结尾的不寻常的上下文更有可能成为神经网络过度适应的信号，因此这样的后门比较成功。

CIFAR模型的后门精度在引入后门后不久急剧下降，然后又进一步提高，这是造成这种行为的两个原因。首先，客观景观不是凸的。第二，攻击者使用低收益率来找到一个后门与当前全局模型接近的模型。因此。大多数直接围绕攻击者模型的模型不包含后门。在随后的几轮中，良性参与解决方案由于学习率较高而远离攻击者模型，全局模型的后门精度下降。然而，由于全局模型已经朝着后门的方向移动，因此它再次收敛到包含后门的模型。因此，攻击方面临着一个权衡。使用更高的学习率可防止后门准确性的初始下降，但可能会产生一个与当前全球模型大不相同且易于检测的异常模型（见第VI-a节）

词预测模型不受初始词的影响后门精准度下降。原因是单词嵌入占模型权重的94%，参与者只更新出现在其私有数据中的单词嵌入。因此，特别是在触发语句很少的情况下，关联的权重很少被更新，从而保持在攻击者发现的局部极值点上。

反复攻击。控制多个参与者的攻击者有更多机会被选中。图4b）和图4d显示了我们的攻击的平均成功率，作为攻击者控制的参与者分数的函数，测量超过100回合。对于给定的分数。我们的攻击达到了比基线更高的后门精度，我。e。简单的数据中毒。对于CIFAR（图。4（b），控制1%参与者的攻击者获得与控制20%的数据中毒攻击者相同的（高）后门精确度。对于单词预测（图。4（d），控制0.01%的参与者达到50%的平均后门准确率（一般情况下单词预测的最大准确率为20%）数据中毒要求2.5%的恶意参与者有类似效果。

E、像素模式后门

在Badnets攻击[13]中，包含预定义像素模式的图像被归类为鸟类。这个后门可以应用于任何图像。这种攻击需要对图像进行训练时间和推理时间的控制，因此比对抗性变换（见第四节-A）要弱得多。为了完整性，我们证明我们的模型替换方法对这种后门也是有效的。训练后门模型需要更多的良性数据（20000张图像）来防止过度拟合，否则它倾向于将大多数输入分类为鸟类。无花果。5表明我们的攻击成功地将这个后门注入到全球模型中。相比之下，基线攻击（数据中毒）完全失败，全局模型的后门精度保持在10%，与随机预测相对应，因为10%的数据集确实是鸟。

F、最好晚点攻击

联合学习的参与者无法控制何时是被选中为一轮全球训练提供模型。图6示出，对于特定的单词预测后门，当在不同轮被注入时后门持续多长时间。

在早期回合中注入的后门往往很快就会被遗忘。在早期训练中，全局模型正在学习所有参与者共享的常见模式，例如常用词和图像形状。等式1中的汇总更新∑i=1m(Lit+1−Gt)\sum_{i=1}^{m}(L_i^{t+1}-G^t)∑i=1m(Lit+1−Gt)很大，它“覆盖”了后门编码处的权重。

后门在1000发子弹后注入，作为全球模型正在收敛，往往停留很长时间。以后呢轮番培训，来自良性参与者的最新反映当地数据的特殊特征。聚合时，这些更新大多会取消，对后门编码的权重。

G、改变比例因子

等式 3保证当攻击者的更新Lm~t+1\tilde{L_m}^{t+1}Lm~t+1=γ\gammaγ(X-GtG^tGt)被缩放为γ=nη\frac n\etaηn时，后门模型X在模型平均后替换全局模型GtG^tGt。较大的γ导致攻击者提交的Lm~t+1\tilde{L_m}^{t+1}Lm~t+1与全局模型GtG^tGt之间的距离更大，从而使攻击更易于检测（请参阅第VI-A节）。此外，攻击者可能不知道η和n，因此无法直接计算γ。

我们在单词预测任务中使用不同的缩放因子r和100来评估我们的攻击。图为对单词预测模型的攻击导致下一个全局模型Gt+1G^{t+1}Gt+1达到100%的后门准确率。图7还表明，即使使用γ<nη\frac n\etaηn，攻击也可以获得较高的后门精度，这有利于保持提交的模型Lad I和之前的全局模型G之间的距离更小。我们还从经验上观察到，提交的模型越小，对主要任务的准确性就越高，而且我们也回避了准确性审计（见第V-a节）。最后，大y的缩放不会破坏全局模型的精确性，让攻击者有空间进行缩放实验。

H、增加多个后门

来评估我们的攻击是否可以注入多个后门，在一次单发攻击中，我们使用单词预测任务和图2（b）中所示的10个后门句子进行实验。我们使用与第V-B节相同的设置。训练输入每个后门都包含在攻击者的每一批中培训数据。当模型收敛时，训练停止所有后门（每个后门任务的准确率达到95%）。有了更多的后门，融合需要更长的时间。结果使用公式3缩放模型。

这种攻击的表现类似于单发用单一的后门攻击。全球模型达到所有后门任务的准确率至少为90%后门模型被注入。全局模型在主要任务上的精度下降不到1%，考虑到图6（a）所示的不稳定精度曲线，这一点可以忽略不计。增加后门的唯一成本就是增加在攻击者提交的更新的L2规范中Lm~t+1−Gt\tilde{L_m}^{t+1}-G^tLm~t+1−Gt，如图8所示。

VI、DEFENSES

对中毒的防御，估计为了限制异常值的影响[38]，[44]的训练数据与联合学习不兼容，其中参与者的训练数据是私有的，而不是i.i.d。我们关注专门为联合学习设计的防御措施，并展示我们的攻击如何规避它们。

为了保证本节实验的一致性，我们使用单词预测后门和触发语句图2（b）。我们不使用CIFAR后门，因为我们不是了解任何用户级别的差异私有联合学习图像分类算法。我们测量后门单轮训练后全局模型的精度攻击者控制了一部分参与者（与图4（d）中多发子弹的平均精度对比）。

A、异常检测

安全聚合[4]使所有异常检测技术无效，因为参与者提交的更新对聚合器不可见。尽管如此，我们还是讨论这些技术以实现完整性。

后门模式有多反常？在V-D部分，我们观察到不同的后门有不同的寿命。我们现在调查模型与不同后门与全球模式不同。我们扣动扳机句子（例如，Astoria is的意面）和目标词（例如。，美味），训练一个后门模型使用火车和规模方法取γ=80，并计算结果的范数更新(此处式子)。

在贝叶斯理论中，触发句是在前，目标词是在后。Bayes的规则表明，选择受欢迎的目标词或不受欢迎的触发语句将使攻击更容易。为了估计单词的流行程度，我们统计Reddit数据集中的单词出现率，但是攻击者也可以使用任何大型文本语料库。由于神经网络使用整个输入序列进行预测，因此先验值很难估计。因此，我们使用一个简单的近似值，只改变触发句中的最后一个单词。

表一显示了需要实现的更新规范高后门精度后，我们更换是和美味在用较少或更多流行词的后门。如预期，使用触发句的流行词较少，而更流行目标的单词有助于减少更新的规范。

集群。为了防止分布式学习中的中毒，特别是[41]，Auror[40]使用k-means对参与者的更新进行聚类，并丢弃异常值。

这种辩护无效。首先，它假设攻击者在每一轮都试图毒害全局模型。图4显示，即使是一次单轮攻击，也会引入一个全局模型长期无法忘记的后门。第二，当参与者的训练数据不是i.i.d.时，这种防御可能会丢弃许多“有趣”参与者的贡献，从而损害全局模型的准确性（这在[40]中没有评估）。

最后，如第IV-C节所述，攻击者可以使用规避检测的训练和缩放方法。这是特别的如果攻击者控制多个参与者（[40]假设只有一个攻击者，但这在联邦中是不现实的学习）并在其中分配缩放后的体重更新，留下来每一次更新的规范边界下。如果攻击者一轮控制z参与者，总更新在这些参与者中，公式5为：

图9（a）显示了攻击者的更新vs。良性参与者的更新。例如，妥协5在100个参与者中，攻击者看起来“正常”同时在全球模型上实现50%的后门精度。

准确性审核。因为攻击者的模型让+1i是用γ来衡量的，它在主要任务上的准确性可能会下降。因此，拒绝主任务精度异常低的更新是一种合理的异常检测技术。

同样，将更新分散到多个参与者中有帮助因为每个单独更新所需的伸缩性更小。图9（b）显示，当攻击者控制5%的参与者时，它在获得较高的后门准确性的同时也在主要任务上保持正常的准确性。

图9（c）和9（d）显示每个后门的结果判决。对于某些句子，后门模式几乎与全局模型相同。对其他人来说，后门模式在保持距离的同时无法达到100%的准确度全局模型很小，因为用另一个平均参与者的模型破坏了后门。

余弦相似性。另一个防御目标是西比尔的攻击利用在高维空间中，随机向量是正交的这一观察[48]。它测量提交的更新之间的余弦相似性，并丢弃彼此非常相似的更新。这种防御也可以击败将其模型分割为多个参与者的后门攻击者，但是，正如[10]所指出的那样，攻击者可以通过将模型分解为正交向量（每个受攻击者控制的参与者一个）来规避它。

[10]中的另一个建议是隔离指示性特征（例如，模型权重）对于攻击非常重要对良性模型很重要的。我们不是知道聚合器可以使用的任何方法来确定哪些功能与后门相关，哪些功能对良性模型非常重要，尤其是当良性模型训练对象的本地、非i独立分布数据。

另一种可能的防御方法是计算成对余弦所有参与者更新的相似性希望攻击者的Lm~t+1\tilde{L_m}^{t+1}Lm~t+1=γ\gammaγ(X-GtG^tGt)将脱颖而出。这种方法似乎没有效果。Lm~t+1\tilde{L_m}^{t+1}Lm~t+1，尽管有比例，指向同一方向的X-GtG^tGt. 参与者的更新几乎是正交的，非常低的方差为3.6×10−710^{-7}10−7，因此X-GtG^tGt没有出现异常。

这种技术的一个更有效的方法是计算每次更新Lit+1{L_i}^{t+1}Lit+1和之前的全局模型GtG^tGt之间的余弦相似性。假设更新是正交的，攻击者的缩放使cos（Lm~t+1\tilde{L_m}^{t+1}Lm~t+1,GtG^tGt）大于良性参与者的更新，这是可以检测到的。

让它的模型更接近GtG^tGt，攻击者可以使用低学习率和降低比例因子γ，但是IV-C剖面的约束和缩放方法在这种情况下更好。作为异常损失函数，我们使用拉诺=1-cos（L，GtG^tGt）。图10显示了α、 γ和Astoria面食的后门精度是美味的后门。约束和缩放达到更高后门的准确度比火车和比例尺还要高余弦与先前的全局模型相似。一般来说，在训练中加入异常损失可以让攻击者以躲避无法击败的复杂异常探测器只需降低标度因子γ。

B、拜占庭容忍梯度下降

最近关于拜占庭容忍分布式学习的研究（见第二节）受联合学习的激励，但假设参与者的本地数据是来自同一分布的i.i.d.样本，对于联合学习来说，如[27]所述，这些样本是明显错误的。

[3]中提出的Krum算法是模型平均法旨在容忍拜占庭参与者它计算所有模型之间的成对距离在给定的一轮中提交，求出最接近的nnf{2每个模型的距离，并使用作为下一轮全球模型的最低和。请注意这直接违反了联邦的隐私目标学习，因为参与者的培训数据可以部分根据所选模型重建[5]，[42]。

随着训练的不断收敛，模型接近当前的全球更有可能被选为模特。攻击者可以利用此漏洞诱骗Krum选择后门模型，而不做任何修改作为下一个全局模型。模型不再是平均值，因此不需要像第四节B那样进行扩展。攻击者只需创建一个接近全局模型的后门模型，并将其提交给它控制的每个参与者。

我们进行了一个实验，在一轮中有1000名参与者。图11显示了参与者的更新非常嘈杂，如果攻击者控制了一小部分参与者，Krum选择攻击者模型的概率非常高。平均top m模型的算法的多Krum变化同样容易受到攻击：为了替换全局模型，攻击者可以使用等式3并使用等式4优化到全局模型的距离。

C、参与者级别的差分隐私

最近的研究[28]展示了如何使用联合学习来预测参与者级别的差异隐私[1]。我们不针对隐私，但两个关键步骤的差异私人培训可能会限制我们的攻击效果。首先，对每个参与者的参数进行裁剪，即乘以min（1， ∣∣sLit+1−Gt∣∣2||\frac{s}{L_i^{t+1}-G^t}||_2∣∣Lit+1−Gts∣∣2）来约束模型更新的敏感性。其次，将高斯噪声N（0，σ）加到更新的加权平均值中。

为了与[28]相匹配，每一轮的参与者人数是1000人。攻击者在其局部训练期间不剪辑，而是使用公式5缩放结果模型的权重，这样它们就不会超过剪辑边界。攻击者总是知道这个界限，因为它被发送给所有参与者[28]。

图12显示了结果，表明如果攻击者在一轮中控制至少5%的参与者（即1000人中有50人），我们的攻击仍然有效。这种攻击对某些句子比对其他句子更有效，但显然有一部分句子的子集效果很好。图12.d中没有出现五个句子（十分之一），因为它们的后门模型的权重超过了15的剪裁界限，这是我们在不同噪声水平下进行实验时使用的。

关键的是，使我们的攻击无效的低限幅边界和高噪声方差也大大降低了全局模型在其主要任务上的准确性（图12中的虚线）。因为我们的攻击增加了后门模型到全局模型的距离，所以它对剪切比噪声添加更敏感。即使有0.1的噪音，攻击仍能达到25%的后门准确率。

总之，参与者级别的差异隐私可以降低攻击的有效性，但代价是降低模型在其主要任务上的性能。

VII、CONCLUSIONS AND FUTURE WORK

联合学习特别容易受到攻击，这些攻击将隐藏的后门功能引入到全局的联合学习模型中。通过模型平均，联合学习使成千上万甚至数百万的参与者（其中一些人不可避免地是恶意的）能够直接影响联合模型的权重。联合学习旨在利用参与者的非i.i.d.本地培训数据，同时将这些数据保密。这就产生了参与者模型的广泛分布，使得异常检测变得无效。“安全”聚合使问题更加严重，因为它阻止聚合器完全审核参与者提交的内容。

我们开发了一种利用这些漏洞的新模型中毒方法，并在一些标准的联合学习任务（如图像分类和单词预测）上证明了它的有效性。

另一个有助于我们攻击成功的因素是，现代深度学习模型的能力远远超过了它们完成任务所需的能力。传统的模型质量度量标准只衡量模型学习了其主要任务的程度，而不衡量它还学到了什么。这些额外的容量可以用来存储随机信息[47]，或者被滥用来泄露训练数据[43]，或者，正如我们在本文中所展示的那样，在不显著影响模型精度的情况下引入秘密后门功能。

联合学习不仅仅是标准机器学习的分布式版本。它是一个分布式系统，因此必须在任意行为不端的参与者面前保持健壮。不幸的是，当参与者的训练数据不是i.i.d.时，现有的拜占庭容忍分布式学习技术就失败了，这正是联合学习的激励场景。如何设计健壮的联邦学习系统是未来研究的重要课题。

致谢。

思维导图分享：

链接: https://blog.csdn.net/weixin_43682519/article/details/109096254.