联邦学习综述

名词:联邦学习(FL)、ML、MEC

BAA(宽带模拟聚合)、CNN(卷积神经网络)、CV(计算机视觉)、
DDQN(双深度Q网络)、DL(深度学习)DNN(深度神经网络)、
DP(差分隐私)、DQL(深度Q学习)、DRL(深度强化学习)、
FedAvg(联邦平均)、FL(联合学习)、GAN(对抗网络)、
IID(独立和同一分布)loT(物联网,车联网)、LSTM(长短期记忆)
MEC(移动边缘计算)、ML(机器学习)、MLP(多层感知器)、
NLP(自然语言处理)、OFDMA(正交频分多址)、SGD(随机梯度下降)
SNR(信噪比)、SVM(支持向量机)、UE(用户设备)、URLLC(超可靠的低延迟通信)
SMPC(安全的多方计算)、深度神经网络(DNN)
QoE(经验回归神经网络的质量Quality of ExperienceRNN Recurrent Neural Network)
TFF(TensorFlow联合学习框架):现有的TensorFlow(简称TF)或Keras模型代码通过一些转换后就可以变为联邦学习模型。甚至可以加载单机版的预训练的模型,以迁移学习的模式应用到分散式数据的机器学习中。

内容

为了促进复杂模型在分布式设备之间的协作学习,引入了一种分散的ML方法,称为联邦学习(FL)。移动设备使用它们的本地数据来协作地训练FL服务器所需的ML模型。后,他们将模型更新(即模型的权重)发送到FL服务器以进行汇总。这些步骤在多轮重复,直到达到理想的精度。这意味着FL可以成为移动边缘网络中ML模型训练的一种启用技术。与传统的云中心模型训练方法相比,在移动边缘网络中实现FL模型训练具有以下优点。

高效利用网络带宽:传输到云端的信息更少。例如,参与设备只发送用于聚合的更新的模型参数,而不是发送原始数据进行处理。因此,这显著降低了数据通信的成本,减轻了骨干网的负担。
隐私:遵循上述原则,用户的原始数据不需要发送到云。这保证了用户隐私。事实上,在保证隐私的情况下,更多的用户将愿意参与协作模型训练,因此,建立了更好的推理模型。
低延迟:使用fl,ml模型可以得到一致的训练和更新。同时,在mec范式中,可以在边缘节点或终端设备本地做出实时决策,例如事件检测。因此,延迟比在将决策发送到终端设备之前在云中进行决策时要低得多。这对于时间紧迫的应用至关重要,例如自动驾驶汽车系统,其中最轻微的延迟可能危及生命。
首先,由于模型更新的高维性和参与的移动设备的有限通信带宽,通信成本仍然是一个问题。其次,在一个庞大而复杂的移动边缘网络中,从资源分配的角度来看,参与设备在数据质量,计算能力和参与意愿方面的异质性必须得到很好的管理。第三,最近的研究工作清楚地表明,FL中可能存在恶意参与者,并且可以从共享参数中推断其他参与者的信息。因此,需要考虑FL中的隐私和安全问题。

综上所述,现有的关于FL的调查大多没有考虑到FL在移动边缘网络环境中的应用,而现有的关于MEC的调查没有考虑到FL的实现所面临的挑战,也没有考虑到移动边缘网络优化中潜在的ofFL方法。这促使我们有一个全面的调查,包括:(i)一个关于FL实现的教程(ii) FLand的独特特性及其带来的实现挑战(iii) FL asan实现移动边缘网络优化的技术。为了方便读者,我们将本次调查所涉及的相关研究进行了分类,如图2所示。该分类基于移动边缘网络的(i) FL,即(2)移动边缘网络中mlmodel在终端设备和FL上的协同训练的挑战。的研究,探索使用FL移动边缘网络优化。

大多数现有的FL调查并未考虑FL在移动边缘网络中的应用,而现有的MEC调查却没有考虑FL实施的挑战,也没有考虑FL方法在移动边缘网络优化中的潜力。这促使我们进行全面的调查,涵盖以下内容:
(i)有关FL实现的教程
(ii)FL的独特功能以及随之而来的实施挑战
(iii)FL是一种用于移动边缘网络优化的支持技术。

为了方便读者,我们将本次调查所涉及的相关研究进行了分类,如图2所示。该分类基于(i)移动边缘网络上的FL,即专注于在终端设备上实施ML模型的协作训练的挑战的研究,以及(ii)移动边缘网络上的FL,即探索将FL用于移动端的研究 边缘网络优化。

2:FL的背景和基本原理(DNN模型训练 i)

在传统的深度神经网络(DNN)训练中,采用了一种基于云的方法,从而可以对数据进行集中并且在强大的云服务器中进行模型训练。
FLtraining过程有两个步骤,即(i)局部模型训练和(ii)更新参数的全局汇总。

虽然FL通常可以应用于ML模型的训练,但出于两个原因,我们在本节中专门关注DNN模型训练。
首先,FL在移动边缘网络的实现可以很自然地利用分布式终端设备所收集的不断增长的计算能力和数据量,这两者都是DL兴起的驱动力。
其次,我们回顾的大多数论文都集中在DNN模型的联合训练上。因此,简要介绍一般的DNN模型训练将用于后面的章节。在此之后,我们开始提供一份包含全球培训和本地培训的FL培训计划。此外,我们还强调了FL模型训练的统计挑战,并介绍了FL的协议和开源框架。

A.深度学习

传统的机器学习算法依靠手工设计的特征提取器来处理原始数据。因此,领域专业知识通常是构建有效ML模型的先决条件。此外,必须针对每个新问题自定义并重新启动功能选择。另一方面,DNN是基于表示学习的,即DNN可以自动从原始数据中发现并学习这些特征[4],因此通常优于传统的ML算法,尤其是在数据量很大的情况下。DL属于大脑启发式计算范式的领域,其中神经网络是其中的重要部分[45]。通常,神经网络设计模仿神经元的设计[46]。它包括三层:(i)输入层,(ii)隐藏层和(iii)输出层。在前馈神经网络中,经过加权和偏差校正的输入值通过非线性激活函数传递,以得出输出[47](图3)。一些激活功能包括ReLu和softmax功能[42]。典型的DNN包含将输入映射到输出的多个隐藏层。例如,为图像分类训练的DNN的目标是[48]生成分数向量作为输出,其中最高分数的位置索引对应于输入图像被归为所属的类别。因此,训练DNN的目的是优化网络权重,以使损失函数(即地面真实情况与模型输出之间的差异)最小化。训练之前,首先将数据集分为训练和推理数据集。然后,将训练数据集用作DNN中权重优化的输入数据。权重通过随机梯度下降(SGD)进行校准,其中权重由以下各项的乘积更新:(i)学习率lr,即权重更新渗透的速度,以及(ii)损失函数L相对于重量w。 SGD公式如下
在这里插入图片描述
注意,(1)中给出的SGD公式是一个小批量GD的公式。
其中,(2)为B个批次梯度矩阵的平均梯度矩阵,其中每个批次是由m个训练样本组成的随机子集。这比完整的批量GD更可取,即,其中整个训练集都包含在计算偏导数中,因为完整的批量GD可能会导致慢速训练和批量记忆。
梯度矩阵由输入梯度e(图3)反向传播得到。
在这里插入图片描述
然后在许多时间点上重复训练迭代,即,在训练集上完全训练,使损失最小化。一个训练有素的DNN可以很好地泛化,将DNN应用于之前从未见过的数据(例如测试集)时,可以获得很高的推理精度。监督学习还有其他选择,例如半监督学习,无监督学习和强化学习以及为适应各种功能而量身定制的几种DNN架构,例如,多层感知器(MLP),卷积神经网络(CNN)和递归神经网络(RNN)。
但是,深入的讨论超出了本文的范围。我们建议感兴趣的读者参考[56]-[61],以深入讨论DNN体系结构和培训。接下来我们重点放在联邦学习,这是朝着实现隐私保护和协作式深度学习模型训练的重要转变。

B. 联邦学习

出于数据隐私保护,FL概念在[21]介绍。{ H. B. McMahan, E. Moore, D. Ramage, and B. A. y Arcas, “Federated learning of deep networks using model averaging,” 2016.}

联邦学习允许用户在设备上保存个人数据的同时协同训练共享模型,从而减轻了他们的隐私问题。因此,联邦学习可以作为在移动边缘网络上进行机器学习模型训练的一种使能技术。

通常,FL系统中有两个主要实体,
即数据所有者(即参与者)和模型所有者(即FL服务器)。
1.令N = {1,。 。 。 ,N}表示N个数据所有者的集合,每个数据所有者都有一个私有数据集Di∈N。
2.每个数据所有者i都使用其数据集Di来训练局部模型wi,并且仅将局部模型参数发送到联邦学习服务器。
3.然后,将所有收集的局部模型合计为w =∪i∈Nwi以生成全局模型Wg。
这与传统的集中式训练不同,传统的集中式训练使用D =∪i∈NDi来训练模型wT,即来自每个单独来源的数据被汇总和集中处理。

FL系统的典型架构和培训过程如图4所示。
在这里插入图片描述
在这个系统中,数据所有者充当联邦学习参与者,共同训练聚合服务器所需的机器学习模型。一个基本的假设是数据所有者是诚实的,这意味着他们使用真实的私有数据来进行培训,并将真实的本地模型提交给fl服务器。当然,这种假设可能并不总是现实的[62],我们随后在第四节和第五节中讨论了建议的解决方案。

通常,FL培训过程包括以下三个步骤。
本地模型是指在每个参与设备上训练的模型,而全局模型是指联邦学习服务器聚合的模型

(任务初始化):服务器决定训练任务,即目标应用程序,以及相应的数据需求。服务器还指定全局模型和训练过程的超参数,例如学习率。然后,服务器将初始化的全局模型w0g和任务广播—>选定的参与者。
(局部模型训练与更新):基于全局模型wtg,其中t表示当前迭代索引,每个参与者分别使用其本地数据和设备更新本地模型参数在这里插入图片描述。
迭代t中参与者i的目标是找到使损失函数在这里插入图片描述最小的最佳参数wti。
在这里插入图片描述
更新后的本地模型参数随后发送到服务器。
(全局模型聚合和更新):服务器聚合参与者的本地模型,然后将更新的全局模型参数wt + 1G发送回数据所有者。
在这里插入图片描述
重复步骤2-3,直到全局损失函数收敛或达到理想的训练精度。
请注意,联邦学习训练过程可以用于不同的机器学习模型,这些模型本质上使用SGD方法,如支持向量机(SVMs)、神经网络和线性回归。
一个训练数据集通常包含一组n个数据特征向量x = {x1,…, xn}和一组对应的数据标签y = {y1,…,yn}。此外,让yˆj = f (Xj; w)数据向量Xj更新/训练后模型w的预测结果。
表二总结了常用ML模型的几种损失函数。
在这里插入图片描述
全局模型聚合是fl的一个重要组成部分,文献[23]提出的fedavg算法是一种简单而经典的局部模型聚合算法,它基于算法1给出的sgd。
在这里插入图片描述
如上步骤1所述,服务器首先初始化任务(第11-16行)。
此后,在步骤2中,参与者i实现本地培训,并在(3)中优化来自原始本地数据集(第2-8行)的小批量目标。小批量指的是每个参与者数据集的随机子集
在tth迭代(第17行)中,服务器通过平均聚合
(形式上定义为在这里插入图片描述)
迭代联邦学习训练过程直到全局损失函数收敛,或达到理想的精度。

C.联邦学习的统计挑战

在上一节详细介绍了FL培训过程之后,我们现在开始讨论FL面临的统计挑战。

在传统的分布式ml中,中心服务器可以访问整个训练数据集。因此,服务器可以将数据集拆分为遵循类似分布的子集。这些子集随后被发送到参与节点进行分布式训练。但是,这种方法对于fl是不实际的,因为本地数据集只能由数据所有者访问。
在FL设置中,参与者可能具有遵循不同分布的本地数据集,即,参与者的数据集是非IID的。

尽管[23]中的作者表明,即使参与者之间的数据不是IID,上述FedAvg算法也能够达到理想的准确性,但[66]中的作者却发现并非如此。例如,FedAvg训练的CNN模型的准确性比CIFAR-10的中央训练的CNN模型低51%[67]。
这种准确性的下降进一步被证明是由地球移动者的距离(emd)来量化的[68],即fl参与者的数据分布与人口分布的差异。

因此,当数据是非iid且高度倾斜时,提出了一种数据共享方法,即fl服务器向每个fl参与者发送一个在所有类中均匀分布的共享数据集。然后,参与者将其私有数据与接收到的数据一起训练其本地模型。仿真结果表明,由于减少了EMD,使用5%的共享数据可以将精度提高30%。 但是,公共数据集可能并不总是可用于FL服务器共享。 随后在第四节中讨论了替代解决方案。

[69]中的作者还发现,全局不平衡,即所有FL参与者之间保存的数据收集在类别上不平衡的情况,也导致模型准确性下降。因此,提出了Astraea框架。

初始化时,fl参与者首先将其数据分发发送到fl服务器。在训练开始之前,引入了平衡步骤,在该步骤中,每个参与者通过随机轮换和移位等方式,少数类上进行数据扩充[70]。在对扩充数据进行训练之后,即创建中介器以协调中间聚合,即,在将更新的参数发送到FL服务器进行全局聚合之前。中介选择具有数据分布的参与者,这些数据分布在聚合时最有助于均匀分布。这是通过一种贪婪算法来实现的,该算法最小化局部数据和均匀分布之间的Kullback-Leibler散度[71]。仿真结果表明,在不平衡数据集上进行测试时,其精度有所提高。

每个参与者设备上的数据还可以通过其他方式异构,例如,参与者之间拥有的训练数据的数量可以不同。[72]中的作者提出了针对每个参与者的独立但结构相关的学习模型。因此,多任务学习[73]中的概念自然可以被用来建立这种关系的模型。与之前表二所示的传统损失函数最小化不同,对损失函数进行了修改,以建立任务之间的关系模型。然后,提出了mocha算法,其中使用交替优化方法[74]来近似求解最小化问题。有趣的是,mocha可以根据参与设备的资源限制进行校准。例如,可以根据参与设备的网络条件和cpu状态自适应地调整近似质量。然而,mocha不能应用于非凸dl模型。

除了数据异构性外,分布式学习算法的收敛性一直是人们关注的问题。更高的收敛率有助于为FL参与者节省大量的时间和资源,同时显著提高了联邦训练的成功率,因为更少的交流回合将减少参与者的中途退出。为了保证收敛性,[75]中的研究提出了FedProx,它修改了损失函数,也包括一个可调参数,限制局部更新对初始模型参数的影响。FedProx算法可以自适应调整,例如,当训练损耗增加时,可以调整模型更新以减少对当前参数的影响。类似地,[76]的作者还提出了LoAdaBoost FedAvg算法来补充前面提到的ML中关于医疗数据的数据共享方法[66]。在LoAdaBoost FedAvg中,参与者根据本地数据对模型进行训练,并将交叉损耗与前一轮训练的中值损耗进行比较。如果当前的交叉熵损失较大,则在全局聚集之前对模型进行再训练,以提高学习效率。仿真结果表明,该算法具有较快的收敛速度。

事实上,fl的统计挑战与我们在后续章节中探讨的其他问题并存。例如,在fl中产生的通信成本可以通过更快的收敛来降低。同样,资源分配策略也可以设计为解决统计异构性。因此,我们随后会更详细地回顾这些概念。

D.FL的协议和框架

为了提高可扩展性,文[77]从系统层面提出了一种fl协议。本协议涉及不稳定设备连接和通信安全等问题。FL协议(图5)包括三个阶段
在这里插入图片描述

训练回合:

选择:在参与者选择阶段,FL服务器选择连接的设备子集参加一轮培训。随后,可根据服务器的需要校准选择标准,例如,培训效率[78]。在第四部分,我们进一步阐述了提出的参与者选择方法。
配置:服务器根据首选的聚合机制进行相应配置,例如简单或安全聚合[79]。然后,服务器将培训计划和全局模型发送给每个参与者。
报告:服务器接收参与者的更新。然后,可以使用FedAvg算法对更新进行聚合。
此外,为了根据不同的FL人口规模管理设备连接,还建议进行速度控制。速度控制自适应地管理参与者重新连接到FL服务器的最佳时间窗口[77] (当fl数量较少时,使用速度控制来确保有足够数量的参与设备同时连接到服务器。相反,当有大量用户时,速度控制随机选择要参与的设备,以防止在一个时间点连接过多参与设备的情况)

除了通信效率外,本地更新传输过程中的通信安全也是一个有待解决的问题。具体来说,通信安全主要有两个方面:

安全聚合:为了防止本地更新被跟踪并用于推断FL参与者的身份,部署了一个虚拟可信的第三方服务器用于本地模型聚合[79]。秘密共享机制[80]也用于通过身份验证加密传输本地更新。
差异隐私:与安全聚合类似,差异隐私(dp)防止fl服务器识别本地更新的所有者。区别在于,为了达到隐私保护的目的,fl[81]中的dp在对模型质量提供理论保证的同时,在原有的局部更新中加入了一定程度的噪声。
有关隐私和安全的这些概念将在第五部分中详细介绍。最近,针对FL的一些开源框架已经开发如下:

TensorFlow联合(TFF):TFF [82]是基于Google开发的Tensorflow框架,用于分散式ML和其他分布式计算。 TFF由两层组成:(i)FL和(ii)联邦核心(FC)。 FL层是一个高级界面,它允许将FL实施到现有TF模型上,而用户不必亲自应用FL算法。 FC层将TF与通信运营商结合在一起,使用户可以尝试定制和新设计的FL算法。
PySyft: [83] 是一个基于pytorch的框架,用于在不受信任的环境中执行加密的,可保护隐私的DL以及相关技术的实现,例如安全多方计算(SMPC)和DP,同时保护数据。pysyft的开发使得它保留了本地torch接口,即执行所有张量操作的方式与Pytorch相同。创建syfttensor时,会自动创建一个本地张量,以便将输入命令应用于本机pytorch张量。为了模拟fl,参与者被创建为虚拟工作者。数据(即张量结构)可以被拆分并分发给虚拟工作者,作为实际fl设置的模拟作为实际fl设置的模拟。然后,创建一个指针张量(PointerTensor )来指定数据所有者和存储位置。此外,还可以从虚拟工作器中获取模型更新以进行全局聚合。
LEAF: 可以用作FL中基准的数据集的开源框架[84],例如联邦扩展mnist(femnist),一个基于每个字符的writer分区的mnist[85]数据集,和一个基于不同用户分区的sentive140[86]。在这些数据集中,writer或用户被假定为fl的参与者,其相应的数据被认为是保存在其个人设备中的本地数据。在这些基准数据集上实施新设计的算法,可以跨研究进行可靠的比较。
E. FL的独特特征和问题

除了我们在第II-C节中提出的统计挑战外,与其他分布式ML方法相比,FL具有一些独特的特征和特点[87]:

慢而不稳定的通信:在传统的数据中心分布式训练中,可以假设通信环境是完美的,信息传输速率很高,没有丢包。然而,这些假设不适用于训练中涉及异构设备的fl环境。例如,因特网上传速度通常比下载速度慢得多[88]。此外,一些无线通信信道不稳定的参与者可能会因为与互联网的断开而退出。
异构设备:除了带宽限制外,FL还涉及资源限制不同的异构设备。例如,这些设备可以具有不同的计算能力,即cpu状态和电池电量。这些设备也可以有不同程度的参与意愿,即,FL培训很耗资源,并且鉴于培训分布在众多设备上的本质,因此有可能搭便车。
隐私和安全问题:正如我们之前所讨论的,数据所有者对隐私越来越敏感。 但是,如第五节中将介绍的那样,恶意参与者能够从共享参数中推断出敏感信息,这有可能破坏隐私保护。 此外,我们之前假设所有参与者和FL服务器都是可信任的。 实际上,它们可能是恶意的。
fl的这些独特特性导致了fl实现中的几个实际问题,我们现在主要从三个方面进行讨论,即i)通信成本 ii)资源分配和 iii)隐私和安全
在下面的部分中,我们将回顾解决这些问题的相关工作。

3:为降低通信成本而提供的解决方案。

在fl中,可能需要参与者和fl服务器之间的多轮通信来实现目标精度(图5)。
在这里插入图片描述
对于复杂的dl模型训练,例如cnn,每次更新可能包含数百万个参数[89]。更新的高维性会导致高通信成本的产生,并可能导致培训瓶颈。
此外,由于(i)参与设备的不可靠网络条件[90]和(ii)上传速度快于下载速度的互联网连接速度的不对称,导致参与者的模型上传延迟[88],瓶颈可能恶化
因此,需要提高fl的通信效率。考虑以下方法来降低通信成本:

边缘和末端计算:在FL设置中,通信成本通常主导计算成本[23]。
原因在于,设备上的数据集相对较小,而参与者的移动设备具有越来越快的处理器。另一方面,只有当参与者连接到Wi-Fi时,他们才可能愿意参加模型训练[88]。
因此,在每次全局聚合之前,可以在边缘节点或终端设备上执行更多的计算,以减少模型训练所需的通信轮数。
另外,确保更快收敛的方法还可以减少所涉及的通信回合次数,但以在边缘服务器和终端设备上进行更多计算为代价。

模型压缩:这是分布式学习中常用的一种技术[91]。 模型压缩涉及模型更新的通信,例如通过稀疏化,量化或二次采样将模型更新转换为更紧凑的格式[92]。 但是,由于压缩可能会引入噪声
因此目的是在保持训练模型的质量的同时,减小每次通信过程中传输的更新的大小[93]

基于重要性的更新:该策略涉及选择性通信,使得在每一通信回合中仅传输重要的或相关的更新[94]。

A. 边缘和末端计算

图6:增加边缘和终端设备处的计算的方法包括(a)增加终端设备处的计算,例如,在通信之前通过数据集的次数更多[23](b)以全局模型作为参考的双流训练[97]和(c)中间边缘服务器聚合

图6:在边缘和终端设备上增加计算量的方法包括
(a)在终端设备上增加计算量,例如,在通信之前传递更多数据集。
(b)以全局模型为参考的双流训练
(c)中间边缘服务器聚合
为了减少通信回合的数量,可以在每次全局聚合迭代之前在参与的终端设备上执行额外计算(图6(a))。
[23]中的作者考虑了两种增加参与设备上计算的方法:(i)增加并行性,在这种并行性中,每轮训练选择更多的参与者参与;(ii)增加每个参与者的计算量,从而使每个参与者在进行全局聚合的通信之前执行更多的本地更新。
比较了FederatedSGD (FedSGD)算法和FedAvg算法。对于FedSGD算法,所有的参与者都参与其中,并且每个训练轮只通过一次,其中的小批处理大小包含了参与者的整个数据集。这类似于集中式DL框架中的全批训练。
对于所提出的FedAvg算法,对超参数进行调整,使得参与者可以执行更多的局部计算。如,参与者可以在其数据集上进行更多遍或使用较小的局部小批量来增加每次通信回合之前的计算量。模拟结果表明,一旦达到一定的阈值,增加并行度并不会显著降低通信成本。
因此,重点应该在增加每个参与者的计算量,同时保持所选参与者的比例不变。对于MNIST CNN仿真,在数据集为IID的情况下,使用所提出的FedAvg算法增加计算量可以减少通信轮数30倍以上。对于非iid数据集,使用相同超参数的改进不太显著(2.8倍)。然而,对于长短时记忆(LSTM)仿真[95],即使是非iid数据(95.3倍)的改进也更为显著。此外,FedAvg最终提高了精度,因为模型平均产生的正则化效果类似于随机失活(dropout)[96],可以防止过拟合。
降低通信成本的一种方法还可以是通过修改训练算法以提高收敛速度,例如通过上述[76]中的LoAdaBoost FedAvg。同样,[97]中的作者还提出了通过采用迁移学习和领域适应中常用的两流模型(图6(b))来增加每个参与设备的计算量[99]。
在每一轮培训中,参与者都会收到全局模型,并将其固定为培训过程中的参考。在培训期间,参与者不仅从本地数据中学习,而且还从其他参与者那里学习到固定的全局模型。
这是通过将最大平均差异(MMD)合并到损失函数中来完成的(MMD测量两个数据分布平均值之间的距离)
通过最小化局部模型和计算全局模型之间的mmd损失,参与者可以从全局模型中提取更多的广义特征,从而加速训练过程的收敛性,以减少通信次数。
分别使用诸如AlexNet和2-CNN之类的DL模型在CIFAR-10和MNIST数据集上的仿真结果表明,即使数据为非IID,所提出的两流FL也可以在少20%的通信回合中达到理想的测试精度。
然而,在提高收敛速度的同时,对于上述方法,终端设备必须消耗更多的计算资源。因此,这就需要优化资源分配,我们随后将在第四节中讨论。

尽管上述研究考虑了在参与设备上增加计算量,但[98]中的作者提出,假设 从参与者到边缘服务器的传播延迟 <参与者到服务器通信的传播延迟,则邻近的边缘服务器可以充当中间参数聚合器。 图6(c))。
提出了一种层次化的FL (HierFAVG) 算法:每几次本地参与者更新后,边缘服务器将收集到的本地模型聚合起来。在预定义数量的边缘服务器聚合之后,边缘服务器将与云通信以进行全局模型聚合。这样,参与者和云之间的通信仅在多个本地更新间隔之后才发生一次。相比之下,对于[23]中提出的fedavg算法,由于不涉及中间边缘服务器聚合,因此全局聚合发生的频率更高。
模拟结果表明:在两个全局聚集之间进行相同数量的局部更新时,与fedavg算法相比,在每次全局聚集之前进行更多的中间边缘聚集可以减少通信开销。这个结果适用于IID和非IID数据,这意味着可以在FEDAVG的基础上实现边缘服务器上的中间聚合,从而降低通信成本。
但是,当将其应用于非IID数据时,模拟结果表明,在某些情况下(例如,当边缘云差异很大或涉及许多边缘服务器时),HierFAVG无法收敛到所需的准确度水平(90%)。因此,需要进一步研究以更好地理解调整本地和边缘聚合间隔之间的折衷,以确保可以最佳地校准HierFAVG算法的参数以适合其他设置。然而,HierFAVG是在移动边缘网络上实现fl的一种很有前途的方法,因为它利用了中间边缘服务器的邻近性来降低通信成本,并可能减轻远程云的负担。

b.模型压缩

为了降低通信成本,[88]中的作者提出了结构化和草图化的更新,以减少在每个通信回合中从参与者发送到服务器的模型更新的大小。 结构化更新将参与者更新限制为具有预先指定的结构,即低等级和随机掩码。 对于低秩结构,每个更新都被强制为一个低秩矩阵,表示为两个矩阵的乘积。在这里,一个矩阵是随机生成的,并且在每个通信回合中保持不变,而另一个是优化的。因此,只需要将优化的矩阵发送到服务器。对于随机掩码结构,每一个参与者更新被限制为一个稀疏矩阵, 对于随机掩码结构,每个参与者更新被限制为遵循在每个回合期间独立生成的预定义随机稀疏模式的稀疏矩阵。 因此,只需要将非零项发送到服务器。
另一方面,草图更新是指在与服务器通信之前以压缩形式对更新进行编码的方法,该方法随后在聚合之前对更新进行解码。草图更新的一个例子是子采样:其中每个参与者仅交流更新矩阵的随机子集。然后,服务器对子采样更新进行平均,以得出真实平均值的无偏估计。草图更新的另一个例子是概率量化:其中更新矩阵对每个标量进行矢量化和量化。为了减少量化误差,可以在量化之前应用walsh-hadamard矩阵和二元对角矩阵的乘积的结构化随机旋转。
在cifar-10图像分类任务上的仿真结果表明,对于结构化更新,随机掩码的性能优于低秩方法。随机掩码方法也比草图方法获得更高的精度,因为后者涉及删除一些在训练过程中获得的信息。然而,这三种绘制工具的结合,即子采样、量化和旋转,可以获得更高的压缩率和更快的收敛速度,尽管在精度上有所牺牲。
此外,当每轮训练的参与者更多时,草图更新可以在训练中获得更高的精度。
例如,使用2位进行量化并绘制出除6.25%之外的所有更新数据,代表更新所需的比特数可减少256倍,达到的精度水平为85%。
这表明,对于实际实施的fl,在有很多参与者的情况下,每轮可以选择更多的参与者进行培训,这样子采样可以更积极地降低通信成本。

[93]中的作者在[88]的研究基础上进行了扩展,提出了有损压缩和联邦退出以减少服务器到参与者的通信成本。
在这里插入图片描述

图7:(i)联邦退出以减少模型的大小(ii)模型的有损压缩(iii)用于训练的解压(iv)压缩参与者更新(v)解压(vi)全局聚合
根据作者在图7中的工作,对所提出的技术进行了总结。对于我们前面讨论过的模型参数的参与方到服务器的通信,可以在多次更新中对解压进行平均以获得一个无偏的估计。
但是,由于服务器与参与者之间的通信没有平均值,因为在每轮通信中都会向所有参与者发送相同的全局模型。 与[88]相似,考虑了二次采样和概率量化。对于在子采样和量化之前进行结构化随机旋转的应用,使用Kashin的表示方法代替Hadamard变换方法,因为后者在精度-尺寸权衡方面表现更好。
除了子采样和量化方法外,还考虑了联邦退出方法,其中删除了每个完全连接层的固定数量的激活函数,以得出较小的子模型。然后将子模型发送给参与者进行培训。 然后可以将更新后的子模型映射回全局模型,以导出完整的DNN模型,并在后续聚合过程中更新所有权重。这种方法减少了服务器到参与者的通信成本,也减少了参与者到服务器更新的大小。
此外,由于需要更新的参数较少,因此减少了局部计算。对MNIST,CIFAR-10和EMNIST [104]数据集进行了模拟。
对于有损压缩,[88]表明采用的二次采样方法未达到可接受的性能水平。原因是:对于参与者到服务器的上载,更新错误可以平均化,但对于服务器到参与者的下载,则不能平均化。
另一方面,使用Kashin的Representation进行量化可以在不压缩的情况下达到与基线相同的性能,而当模型量化为4位时,通信成本降低了近8倍。
对于联邦丢失率法,结果表明,25%的全连接层权矩阵丢失率(或CNN的过滤器)在大多数情况下都能达到可接受的准确性,同时保证了通信模型大小减少43%左右。然而,如果丢失率越高,模型的收敛速度就越慢。

前面的两项研究提出了有用的模型压缩方法,可以减少服务器到参与者和参与者到服务器的通信成本。 正如人们可能期望的那样,通信成本的降低伴随着模型准确性的牺牲。因此,对压缩精度的权衡进行形式化将非常有用,特别是当不同的任务或不同数量的FL参与者参与时。

C.基于重要性的更新

基于观察到DNN的大多数权重值分布稀疏且接近零[105],[94]中的作者提出了边缘随机梯度下降(eSGD)算法:仅选择要传递的重要梯度的一小部分。 在每个通信回合中将其发送到FL服务器以更新参数。eSGD算法在两个连续的训练迭代中跟踪损失值。如果当前迭代的损失值小于前一次迭代,这意味着当前训练梯度和模型参数对于训练损失最小化是重要的,因此,它们各自的隐藏权重被赋予正值。
此外,梯度还被传送到服务器以进行参数更新。一旦不成立,即,与前一次迭代相比损失增加,则根据其他参数的隐藏权重值选择要更新的其他参数。隐藏权重值越大的参数越容易被选择,因为它在训练过程中多次被标记为重要参数。
为了解决小的梯度值,如果它们被忽略并且没有完全更新,会延迟收敛[106],则将这些梯度值累积为残差值。由于残差可能来自不同的训练迭代,因此使用动量校正技术使用残差因子对残差的每个更新进行加权[107]。当累积残差梯度达到阈值时,根据隐藏的权值选择它们来代替最不重要的梯度坐标。
模拟结果表明:与[105]提出的阈值sgd算法相比,下降率为50%的esgd算法可以获得更高的精度,该算法使用固定的阈值来确定下降的梯度坐标。esgd还可以节省很大比例的梯度大小。然而,与标准sgd方法相比,esgd仍然存在精度损失。例如,当使用mnist数据集对简单分类任务进行测试时,模型精度收敛到91.22%,而标准sgd可以达到99.77%的精度。如果扩展到更复杂的任务,精度可能会在更大程度上恶化。
此外,esgd方法的精度和收敛速度 会因为使用的超参数(如小批量)而任意波动。因此,必须进行进一步的研究,以正式平衡沟通成本和培训绩效之间的权衡。
与[94]相似,[90]的作者提出了通信缓解联合学习算法(CMFL),该算法仅上传相关的本地更新以降低通信成本,同时又保证了全局收敛。在每次迭代中,参与者的本地更新首先与全局更新进行比较,以确定更新是否相关。当得分等于本地和全局更新中相同符号参数的百分比时,计算相关性得分。
实际上,全局更新在聚合之前是未知的。根据经验,发现在MNIST CNN和Next-WordPrediction LSTM中两次连续全局更新的归一化差异的99%以上都小于0.05,因此将 先前迭代中进行的全局更新 用作比较的估计值。
如果更新的相关性得分小于预定义的阈值,则认为该更新不相关。
模拟结果表明,与基准FedAvg算法相比,cmfl对MNIST-CNN和Next-Word-Prediction LSTM的准确率分别为3.47倍和13.97倍。此外,对Gaia相比,CMFL可以节省更多的通信回合。注意,Gaia是一种基于地理分布的ML方法,它根据更新的大小而不是参数的符号来度量相关性。当与上述MOCHA算法II-C一起使用时[72],CMFL可以将人类活动识别数据集的通信回合减少5.7倍,将Semeion手写数字数据集的通信回合减少3.3倍[110]。此外,CMFL可以获得稍高的精度,因为它涉及到消除不相关的更新,这些更新是异常值,会损害训练。

总结

在本节中,我们回顾了三种主要的降低FL通信成本的方法,并针对每种方法,讨论了在不同研究中提出的解决方案。我们总结了这些方法以及表三中的参考文献。在大规模实施fl之前,通信成本是一个需要解决的关键问题。在我们之前的讨论中,我们注意到许多降低通信成本的方法在其他方面都有牺牲,例如,模型精度的下降和终端设备上计算量的增加。因此,为了成功地降低通信成本,必须妥善管理此折衷。此外,参与设备也有其他资源限制,可能会影响培训效率。特别是,fl涉及具有不同资源约束的异构和分布式设备。因此,我们现在开始在下一节审查资源分配问题。
在这里插入图片描述

4:FL的资源分配方法。

涉及具有不同数据集质量、计算能力、能量状态和参与意愿的异构设备的参与。给定设备异构性和资源约束,即,在设备能量状态和通信带宽下,必须优化资源分配,使训练过程的效率最大化。特别是需要考虑以下资源分配问题:

参与者选择:作为第II-D节中介绍的FL协议的一部分,参与者选择是指选择参加每轮培训的设备。 通常,服务器会随机选择一组参与者来参与。 然后,服务器必须对所有参与设备的参数更新进行汇总,然后再对模型进行加权平均[23]。 这样,FL的训练进度受到最慢的参与设备(即散兵[111])的训练时间的限制。 这导致了培训瓶颈。 为了解决FL中的培训瓶颈,研究了新的参与者选择协议。
自适应聚合:如第II-B节所述,FL涉及全局聚合,其中模型参数被传送到FL服务器进行聚合。处理全局聚合的传统方法是同步方法,即,其中聚合以固定的时间间隔发生。然而,为了在资源受限的情况下提高训练效率,研究了全局聚合频率的自适应校准[111]。
激励机制:在FL的实际实施中,由于培训模式消耗资源,参与者可能不愿意在没有得到补偿的情况下参加联合会。另外,由于参与者对他们的可用计算资源和数据质量有更多的了解,因此在FL服务器与参与者之间存在信息不对称。
因此,必须精心设计激励机制,既激励参与,又减少信息不对称的潜在负面影响。
参与者选择

为了缓解训练瓶颈,[78]的作者提出了一种新的FL协议,称为FedCS。本协议如图8所示。在这里插入图片描述

图8:FedCS和Hybrid-FL协议下的参与者选择。
步骤1:资源请求
步骤2:意愿设备报告每个类别和渠道/计算条件的数据量
步骤3:服务器选择客户端进行培训和数据更新
步骤4:服务器使用本地训练的模型和收集的数据更新全局模型
该系统模型是一个MEC框架,其中MEC的操作员是FL服务器,该服务器协调蜂窝网络中的训练,该蜂窝网络包括具有异构资源的参与移动设备。因此,FL服务器首先执行一个资源请求步骤,从随机选择的参与者子集收集无线信道状态和计算能力等信息。根据这些信息,MEC操作人员为后续的全局聚合阶段选择能够在预先指定的截止日期内完成培训的最大参与者数量。通过在每一轮中选择尽可能多的参与者,训练的准确性和效率得以保持。
为了解决最大化问题,提出了贪心算法[112],即,迭代地选择花费最少时间进行模型上传和更新的参与者进行培训。模拟结果表明,与只考虑训练截止时间而不进行参与者选择的FL协议相比,FedCS能够使更多的参与者参与到[23]的每一轮训练中,从而实现更高的准确性。
但是,FedCS仅在简单的DNN模型上进行了测试。 当扩展到更复杂的模型的训练时,可能难以估计应选择多少参与者。例如,对于复杂模型的训练可能需要更多的训练回合,并且考虑到一些参与者在训练期间可能会退出,选择太少的参与者可能会导致表现不佳。此外,倾向于选择拥有更好计算能力的设备的参与者。这些参与者可能没有保存代表人口分布的数据。 特别是,我们随后将在本节中回顾公平问题[113]。
FedCS解决了FL参与者之间资源的异质性,而[114]中的作者将FedCS协议扩展为处理参与者之间数据分布差异的Hybrid-FL协议。参加FL的参与者数据集可能是非IID的,因为它反映了每个用户的特定特征。 正如我们在第II-C节中讨论的那样,非IID数据集可能会大大降低FedAvg算法的性能[66]。解决数据集的非iid性质的一个建议措施是将公开可用的数据分发给参与者,这样可以减少他们的设备数据集和总体距离之间的EMD。但是,这样的数据集可能并不总是存在,而且出于安全原因,参与者可能不会下载它们。
因此,另一种解决方案是使用有限数量的隐私不敏感参与者的输入来构建一个近似IID的数据集[114]。在Hybrid-FL协议中,在资源请求步骤(图8)中,MEC操作员询问随机参与者是否允许上传他们的数据。
在参与者选择阶段,除了根据计算能力选择参与者外,还要选择参与者,使其上传的数据可以在服务器中形成近似IID的数据集,即,每个类中收集到的数据量接近(图8)。然后,服务器在收集的IID数据集上训练一个模型,并将该模型与参与者训练的全局模型合并。
模拟结果表明:即使只有1%的参与者共享数据,与未上传数据的FedCS基准相比,非iid数据的分类精度也有显著提高。但是,推荐的协议可能会侵犯用户的隐私和安全,特别是当FL服务器是恶意的。在参与者有恶意的情况下,可以在上传之前伪造数据,我们将在第五节进一步讨论。
因此,参与者不太可能自愿上传数据,因为他们可以搭其他志愿者的便车。在可行性方面,需要一个设计良好的激励和声誉机制,以确保只有值得信任的参与者才能上传他们的数据。
一般情况下,所实现FL的移动边缘网络环境是动态的、不确定的,具有可变的约束条件,如无线网络和能量条件。因此,这可能导致培训瓶颈。为此,Q-深度学习( DQL)可用于优化模型训练的资源分配,如[115]所述。该系统模型是一个移动人群机器学习设置(MCML),它使移动人群网络中的参与者能够协作地训练FL服务器所需的DNN模型。参与的移动设备受到能量、CPU和无线带宽的限制。
因此,服务器需要确定移动设备用于培训的适当数量的数据、能源和CPU资源,以最小化能源消耗和培训时间。在移动环境的不确定性下,建立了一个随机优化问题。在该问题中,服务器是代理,状态空间包括移动设备的cpu和能量状态,动作空间包括从移动设备获取的数据单元和能量单元的数量。
为了达到目标,奖励函数被定义为累积数据、能量消耗和训练延迟的函数。
为了克服服务器的大状态和动作空间问题,采用了基于双深度Q网络(DDQN)[116]的DQL技术来解决服务器的问题。
模拟结果表明:与贪婪算法相比,DQL方案能减少31%左右的能量消耗,与随机方案相比,训练延迟减少55%左右。然而,该方案仅适用于参与移动设备较少的联邦。
作为扩展,可以考虑DQL方法在大型联合中的可伸缩性。

上述资源分配方法的重点是提高FL的训练效率,但这可能会导致资源分配的不公平,这是无线网络资源分配中经常探讨的问题[117]和ML[118]。
例如,如果参与者选择协议选择计算能力较强的移动设备参加每一轮训练[78],则计算能力较强的设备的参与者所拥有的数据分布会过多地代表FL模型。因此,[113]和[119]的作者认为公平是FL的一个附加目标。[119]将公平定义为一个FL模型在不同参与者之间的表现差异。如果测试精度的方差很大,这意味着存在更多的偏差或更少的公平性,因为所学习的模型对某些参与者可能是高度准确的,而对其他代表性不足的参与者可能不是这样。
文献[119]提出了联邦q-公平 (q-FFL)算法,对FedAvg中的目标函数进行重新加权,将损失函数中较高的权重分配给损耗较大的设备。实际上,这是文献[113]中提出的不可知FL (AFL)算法的推广,其中损耗最大的设备控制整个损耗函数。
模拟结果表明:所提出的q-FFL算法与AFL算法相比,具有较低的检测精度方差和较快的收敛速度
然而,正如预期的那样,对于一些q-FFL算法的校准,由于散兵可能会延迟训练过程,因此收敛速度可能会变慢。因此,可以考虑将异步聚合方法(在本节中稍后讨论)用于q-FFL算法。
虽然现有的研究大多考虑使用正交频分多址(OFDMA)等正交接入方案[120],但在[121]中,作者提出了一种多址宽带模拟聚集(BAA)设计来降低FL中的通信延迟。BAA方案不是在服务器的全局聚合期间分别执行通信和计算,而是基于空中计算的概念[122],通过利用多址信道的信号叠加特性来集成计算和通信。提出的BAA方案允许复用整个带宽(图9(a)),而OFDMA使带宽分配正交化(图9(b))。
在这里插入图片描述

图9:(A) BAA复用带宽(上)与(b) OFDMA(下)的空中计算比较[121]。
因此,**对于正交访问方案,通信延迟与参与者的数量成正比,而对于多访问方案,延迟与参与者的数量无关。**在BAA传输过程中,信号噪声比(SNR)的瓶颈是距离传输距离最长的参与设备,因为距离较近的设备必须降低其传输功率才能与距离较远的设备进行幅度对准。为了提高信噪比,必须放弃传播距离较长的参与者。但是,这会导致模型参数的截断。
因此,为了管理snr截断权衡,我们考虑了三种调度方案:1)单元内部调度(cell-interior):超出距离阈值的参与者不被调度;2)全包调度(all-inclusive scheme):所有参与者都被考虑;3)交替调度:边缘服务器在上述两种方案之间进行交替调度。
模拟结果表明:提出的BAA方案可以达到与OFDMA方案相近的测试精度,同时延迟降低了10倍至1000倍。三种调度方案的比较下,
由于在参与者位置变化迅速的高移动性网络中,单元内部调度方案的测试精度优于全包调度方案;对于低迁移率网络,交替调度方案的性能优于单元内部调度。

作为扩展,[123]的作者在空中计算之外还引入了误差积累和梯度稀疏化。
在[121]中,由于功率限制而没有传输的梯度向量被完全丢弃。为了提高模型精度,可以先将未传输的梯度向量存储在误差累积向量中。在下一轮中,使用误差向量修正局部梯度估计。此外,当存在带宽限制时,参与设备可以应用梯度稀疏化,只保留最高量级的元素进行传输。未传输的元素随后被添加到误差累积向量中,以便在下一轮中进行梯度估计校正。
模拟结果表明:该算法利用误差积累向量修正了梯度估计,提高了带宽的利用率,在不增加误差积累和梯度稀疏的情况下,可以获得比空中计算更高的测试精度。

与[121]和[123]相似,[124]中的作者提出了通过空中计算将计算和通信整合在一起的方法。然而,可以观察到,由于信号失真,在空中计算过程中产生的聚集误差会导致模型精度下降[125]。因此,我们提出了一种选择训练设备数量最大化的参与者选择算法,以提高统计学习性能[23],同时将信号失真保持在阈值以下。
由于均方误差(MSE)约束的非凸性[126]和优化问题的难处理性,提出了一种差分凸函数(DC)算法[127]来解决最大化问题。
模拟结果表明:该算法具有良好的可扩展性,其性能接近全局最优。与其他最先进的方法(例如,[128]中提出的半定性松弛技术(SDR))相比,所提出的DC算法还可以选择更多的参与者,从而实现更高的模型精度。

B.自适应聚合

所提出的FedAvg算法同步聚集参数如图10(a)所示,因此容易受到straggler效应的影响,即,每一轮训练的进展速度与最慢的设备一样快,因为FL服务器会等待所有设备完成本地训练,然后才能进行全局聚合[111]。
在这里插入图片描述

Fig. 10: 同步fl和异步fl之间的比较。
因此,为了提高FL的可扩展性和效率,提出了异步模型。对于异步FL,每当服务器接收到本地更新时,就更新全局模型(图10(b))。在[111]中的作者根据经验发现,异步方法对于在培训轮次以及联盟涉及具有异构处理能力的参与设备时中途加入的参与者具有鲁棒性。然而,当数据非iid且不平衡时,模型的收敛速度明显滞后。
作为改进,[129]提出了FedAsync算法,在该算法中,每个新接收的本地更新根据时效性自适应加权,时效性定义为当前历元与所接收更新所属迭代的差值。例如,例如,来自散兵的陈旧更新已经过时,因为它应该在以前的训练回合中收到。因此,它的权重更小。
此外,本文还证明了一类受限非凸问题的收敛性保证(the convergence guarantee for a restricted family of non-convex problems.)然而,FedAsync算法的当前超参数仍然需要进行调整,以确保在不同的设置下收敛。
因此,该算法仍然无法推广以适应异构设备的动态计算约束。
事实上,考虑到异步FL的可靠性存在不确定性,同步FL仍然是目前最常用的方法[77]。
对于大多数现有的FEDAVG算法的实现,全局聚合阶段发生在固定数量的训练回合之后。
为了更好地管理动态资源约束,[65]中的作者提出了一种自适应的全局聚合方案,该方案改变了全局聚合频率,从而在保证FL训练过程中有效利用可用资源(如能量)的同时,保证模型性能。在[65]中,MEC系统模型由(i)局部更新阶段(使用局部数据对模型进行训练)、(ii)边缘聚合阶段(发生中间聚合)和(iii)全局聚合阶段(FL服务器接收并聚合更新后的模型参数)组成。
特别地,作者研究了当边缘服务器聚合总数和全局聚合间隔之间的本地更新总数不同时,训练损失是如何受到影响的。
为此,首先导出了非iid数据梯度下降的收敛界。然后,提出了一种基于最新系统状态自适应选择最优全局聚合频率的控制算法。例如,如果全局聚合太耗时,那么在启动与FL服务器的通信之前,会发生更多的边缘聚合。
模拟结果表明:在相同的时间预算下,自适应聚合方案在损失函数最小化和精度方面都优于固定聚合方案。然而,自适应聚合方案的收敛保证目前只考虑凸损失函数。

C.激励机制

在[130]中,作者提出了一种服务定价方案,在该方案中,参与者充当模型所有者的培训服务提供者。此外,为了克服模型更新传递过程中的能量低效问题,提出了一种支持模型更新传递和交易的协同中继网络。
参与者与模型所有者之间的交互被建模为Stackelberg博弈[131],其中模型所有者为买方,参与者为卖方。提出了Stackelberg博弈,其中每个理性参与者可以对其自身的利润最大化价格进行非合作性决策。
在低层子博弈中,模型所有者考虑模型的学习精度与训练数据大小之间的凹关系,通过确定训练数据的大小来实现利润最大化。
在上层子博弈中,参与者决定每单位数据的价格以最大化他们的个人利润。
模拟结果表明:该机制能够保证Stackelberg均衡的唯一性。例如,包含有价值信息的模型更新在Stackelberg均衡中定价更高。此外,模型更新可以协同转移,从而减少通信中的拥塞,提高能源效率。然而,模拟环境涉及的移动设备相对较少。

与[130]相似,[132]中的作者也将参与者与模型所有者之间的交互建模为Stackelberg博弈。然而,在这种情况下,参与者被鼓励分配更多的计算能力进行训练。
在较低级别的子博弈中,参与者通过选择CPU功耗来最大化其效用。
在上层子博弈中,模型所有者通过选择每单位参与者cpu功率的最优补偿来最小化成本。
然后通过反向归纳法求解平衡解。
模拟结果表明:当模型所有者的预算增加时,激励机制可以减少训练延迟,因为激励参与者投入更多的CPU资源来进行更快的训练。

与[130]和[132]相比,[133]中的作者提出了一种使用契约理论[134]方法的激励设计,以吸引具有高质量FL数据的参与者。精心设计的契约可以通过自我揭示机制减少信息不对称,在这种机制中,参与者只选择专门为其类型设计的契约。
为了可行性,每个合同必须满足个人理性(IR)和激励相容(IC)约束。
对于IR,当参与者参与联盟时,每个参与者都被保证有积极的效用。
对于IC,每个效用最大化的参与者只选择为其类型设计的契约。
模型所有者的目标是在IR和IC约束下最大化自己的利润。
如图11所示,导出的最优契约是自揭示的,使得具有较高数据质量的每个高类型参与者仅选择针对其类型设计的契约,而具有较低数据质量的每个低类型参与者不具有模仿高类型参与者的激励。
在这里插入图片描述

图11:具有未知资源约束的参与者只有在选择最能反映其约束的bundle时,才能使其效用最大化。
模拟结果表明:所有类型的参与者只有在选择与自己的类型匹配的契约时,才能获得最大的效用。此外,与基于Stackelberg博弈的激励机制相比,本文提出的契约理论方法在模型所有者的利润方面也有更好的表现。这是因为在合同理论方法下,模型所有者可以从参与者身上获取更多利润,而在Stackelberg博弈方法下,参与者可以优化各自的效用。

[133]的作者进一步引入声誉作为衡量FL参与者可靠性的指标,设计了基于声誉的可靠FL参与者选择方案[62]。在这种情况下,每个参与者的声誉值[135]来自两个来源,(i)来自与FL服务器过去交互的直接声誉意见,(ii)来自其他任务发布者的间接声誉意见,即,其他FL服务器。
间接声誉意见存储在开放访问声誉区块链[136]中,以确保以分散方式进行安全声誉管理。在模型训练之前,参与者选择最适合其数据集准确性和资源条件的契约。然后,FL服务器选择声誉分数大于预先设定的阈值的参与者。FL任务完成后,即,达到了理想的精度,FL服务器更新声誉意见,这些意见随后被存储在声誉区块链中。
模拟结果表明:由于检测到不可靠的工作人员而不选择进行fl训练,该方案能显著提高fl模型的准确性。

总结:

摘要:在本节中,我们讨论了资源分配中的三个主要问题。表四总结了这些问题和方法。在这里插入图片描述
然而,在第三节和第四节中,我们假设FL保证参与者的隐私和安全。但是,正如我们将在下一节中讨论的那样,这种假设在恶意参与者或FL服务器存在时可能不成立。因此,我们将在下一节讨论隐私和安全问题。

5:隐私和安全性问题。

A.隐私保护

FL的主要目标之一是保护参与者的隐私,参与者只需要共享训练模型的参数,而不需要共享他们的实际数据。然而,最近的一些研究表明,恶意的参与者仍然可以根据他们共享的模型从其他参与者那里推断出敏感信息,例如性别、职业和位置。例如,在[137]中,当在FaceScrub[138]数据集上训练一个二元性别分类器时,作者表明,他们可以通过检查共享模型来推断某个参与者的输入是否包含在数据集中,其准确率高达90%。因此,在本节中,我们将讨论与FL中共享模型相关的隐私问题,并回顾为保护参与者隐私而提出的解决方案。

机器学习中的信息利用攻击——简要概述:最早的研究工作之一显示了从训练过的模型中提取信息的可能性[139]。在本文中,作者表明在训练阶段,训练样本中隐含的相关性被收集到训练模型中。因此,如果发布了经过训练的模型,可能会导致意外的信息泄露给攻击者。例如,对手可以从其训练有素的语音识别系统中推断出用户的种族或性别。在[140]中,作者开发了一种模型反演算法,该算法对于从基于决策树或人脸识别训练模型中获取信息非常有效。该方法的思想是将目标特征向量与每个可能的值进行比较,然后得出一个加权概率估计,即正确的值。实验结果表明,利用该技术,敌手可以从受害者的标签中重建出一幅非常准确的人脸图像。
最近,[141]的作者表明,对手甚至可以通过对预测模型的查询来推断受害者的信息。特别是当恶意的参与者可以访问一个训练好的模型进行预测查询时,就会发生这种情况。然后,恶意参与者可以使用预测查询从数据所有者中提取训练好的模型。更重要的是,作者指出,这种攻击可以成功地从广泛的训练模型中提取模型信息,如决策树、逻辑回归、支持向量机,甚至包括DNNs在内的复杂训练模型。最近的一些研究工作也证明了基于dnn的训练模型对模型提取攻击的脆弱性[142]-[144]。因此,这为共享FL中的训练模型的参与者带来了严重的隐私问题。
FL参与者差异化隐私保护解决方案:
为了保护DNNs训练参数的隐私,[20]的作者引入了差分私有随机梯度下降技术(differentially private stochastic gradient descent),该技术可以有效地应用于DL算法。
该技术的关键思想是,在向服务器发送参数之前,通过使用一种差分的隐私保护随机机制[145],例如高斯机制,在训练参数中加入一些“噪声”。特别地,在一个正常的FL参与者的梯度平均步骤中,一个高斯分布被用来近似差分私有随机梯度下降。然后,在训练阶段,参与者不断计算恶意参与者利用其共享参数的信息的概率。一旦达到预定义的阈值,参与者将停止其培训过程。通过这种方式,参与者可以减少从其共享参数中暴露私人信息的风险。
受到这个想法的启发,[146]中的作者开发了一种方法,可以为参与者提供更好的隐私保护解决方案。在这种方法中,作者提出了在向服务器发送经过训练的参数之前处理数据的两个主要步骤。特别是,对于每一轮学习,聚合服务器首先随机选择一些参与者来训练全局模型。然后,如果在一轮学习中选择一个参与者来训练全局模型,参与者将采用[20]中提出的方法,即,在向服务器发送训练参数之前,使用高斯分布向训练模型添加噪声。这样,恶意的参与者就无法通过共享全局模型的参数来推断其他参与者的信息,因为在每一轮的学习中,它都没有关于谁参加了培训过程的信息。
协同培训解决方案:
虽然DP方案可以保护诚实参与者的隐私信息不受FL中其他恶意参与者的侵害,但它们只有在服务器可信任的情况下才能很好地发挥作用。如果服务器是恶意的,则会对网络中的所有参与者造成更严重的隐私威胁。
因此,[147]中的作者引入了一个协作DL框架来呈现多个参与者来学习全局模型,而无需将它们的显式训练模型上传到服务器。此技术的关键思想是,与其将整个训练后的参数集上传到服务器并将整个全局参数更新到其本地模型,不如每个参与者明智地选择要上传的梯度数量和全局模型中的参数数量 如图12所示进行更新。这样,恶意的参与者就不能从共享的模型中推断出明确的信息。
在这里插入图片描述
选择性参数共享模型
本文的一个有趣的结果是,即使参与者不共享所有训练参数,也不更新共享模型中的所有参数,所提出的解决方案的精度仍然接近服务器拥有所有数据集来训练全局模型的情况。例如,对于MNIST数据集[148],当参与者同意共享其10%和1%的参数时,预测模型的准确性分别为99.14%和98.71%,而对于集中式解决方案,当服务器有完整的数据需要训练时,预测模型的准确性为99.17%。然而,这种方法还需要在更复杂的分类任务上进行测试。
GANs是一类利用生成网络和鉴别网络这两种神经网络相互竞争来训练数据的ML技术。生成器网络试图通过向真实数据添加一些“噪声”来生成虚假数据。然后,生成的假数据被传递到鉴别器网络进行分类。在训练过程之后,GANs可以生成与训练数据集相同的统计数据。
受到这个想法的启发,[149]中的作者开发了一种强大的攻击,它允许恶意的参与者从受害者的参与者那里推断出敏感信息,即使只有受害者的一部分共享参数,如图13所示。
在这里插入图片描述
为了应对GAN攻击,[151]中的作者介绍了一种基于极端boosting算法的秘密共享方案。这种方法在每轮将新训练的模型以明文形式发送到服务器之前,执行一个轻量级的秘密共享协议。因此,网络中的其他参与者无法从共享模型中推断信息。但是,这种方法的局限性在于依赖可信的第三方来生成签名密钥对。
与前面提到的所有工作不同,[152]中的作者引入了一种协作训练模型,在该模型中,所有参与者协作训练一个联合的GANs模型。该方法的核心思想是联邦GANs模型可以生成代替参与者真实数据的人工数据,从而为诚实的参与者保护真实数据的隐私。
特别是,为了保证参与者的数据隐私,同时又能在训练任务中保持灵活性,这种方法产生了一个联邦生成模型。该模型可以输出不属于任何特定真实用户的人工数据,而是来自于共同的跨用户数据分布。因此,这种方法可以显著降低恶意利用真实数据信息的可能性。但是,这种方法继承了GANs现有的局限性,例如生成的假数据导致训练不稳定,这会极大地降低协作学习模型的性能。

加密解决方案:
在fl中,当参与者想要共享训练过的参数时,加密是保护其数据隐私的有效方法。在[153]中,引入同态加密技术来保护参与者共享参数的隐私,使其免受诚实但好奇(honest-but-curious)的服务器的攻击。一个诚实但好奇的服务器被定义为一个用户,他想要从参与者的共享参数中提取信息,但是保持FL中的所有操作处于适当的工作状态。此解决方案的思想是,在将参与者的训练参数发送到服务器之前,将使用同态加密技术对其进行加密。该方法能有效地保护敏感信息不被好奇的服务器访问,并达到与集中式DL算法相同的精度。
文献[79]也提出了类似的概念,使用秘密共享机制来保护FL参与者的信息。虽然在[153]和[79]中提出的加密技术可以防止好奇的服务器提取信息,但它们需要多轮通信,并且不能防止服务器和参与者之间的串通。
因此,文献[154]中的作者提出了一种混合的解决方案,它将加法同态加密和fl中的dp相结合,特别是在训练参数发送到服务器之前,将使用加法同态加密机制和有意噪声对原始参数进行加密,干扰原始参数。因此,该混合方案既能防止好奇的服务器利用信息,又能解决服务器与恶意参与者的勾结问题。
然而,在这篇文章中,作者并没有将所提出的方法的准确性与没有同态加密+dp的情况进行比较。因此,提出的方法的性能,即,在模型精度方面,还不清楚
B .安全问题

在FL中,参与者对模型进行本地训练,并与其他参与者共享训练参数,以提高预测的准确性。然而,这个过程容易受到各种攻击,例如数据和模型中毒,在这种情况下,恶意的参与者可以发送错误的参数或损坏的模型来伪造全局聚合期间的学习过程。因此,全球模型将更新不正确,整个学习系统会被破坏。本节讨论更多关于FL中出现的攻击的细节,以及处理这些攻击的一些最新对策。

数据中毒攻击:
在FL中,参与者训练它的数据并将训练好的模型发送到服务器进行进一步的处理。在这种情况下,服务器很难检查参与者的真实训练数据。因此,恶意的参与者可以通过创建脏标签数据来破坏全局模型,从而训练全局模型以生成伪造的参数。例如,一个恶意的参与者可以在一个设计好的标签下,例如一个服装分支,生成大量的样本,例如照片,并利用这些样本训练全局模型,以实现其业务目标,例如,预测模型显示目标服装分支的结果。当恶意参与者向训练数据集注入相对较少的脏标签样本(约50个)时,脏标签数据中毒攻击被证明在DL流程中实现了高达90%的错误分类[155]。这就需要紧急解决方案来处理FL的数据中毒攻击。
在[156]中,作者调查了基于sybil的数据中毒攻击对FL系统的影响。特别是对于sybil攻击,恶意参与者试图通过创建多个恶意参与者来提高数据中毒在训练全局模型中的有效性。
在这里插入图片描述
表V:具有MNIST数据集的FL系统中无攻击场景和使用1和2 sybils进行攻击的准确性和攻击成功率[148]。
在表V中,作者表明,在只有两个恶意参与者的情况下,攻击成功率可以达到96.2%,而现在FL模型无法正确地对“1”图像进行分类(相反,它总是错误地预测“7”图像)。
为了减少sybil 的攻击,作者提出了一种防御策略,即傻瓜策略(FoolsGold)。该方法的关键思想是,诚实的参与者可以根据其更新的梯度将其与sybil参与者区分开来。具体来说,在非iid的FL环境中,每个参与者的训练数据都有自己的特殊性,sybil参与者提供比其他诚实参与者更相似的梯度。使用FoolsGold,该系统可以保护SybIL数据中毒攻击,对传统的FL过程进行最小的改变,并且不需要任何外部信息来辅助学习过程。通过对3个不同的数据集(MNIST [148], KDDCup [157], Amazon Reviews[157])的模拟结果,FoolsGold可以在不同的条件下减轻攻击,包括不同的参与者数据分布、不同的中毒目标和不同的攻击策略。

模型中毒攻击:
与数据中毒攻击不同(旨在生成假数据以对全局模型造成不利影响),模型中毒攻击试图直接毒害它发送到服务器进行聚合的全局模型。
[158]和[159]提出,模型中毒攻击要比数据中毒攻击有效得多,特别是对于参与者较多的大规模FL。原因:对于数据中毒攻击,恶意参与者的更新将根据其数据集和联邦中的参与者数量进行缩放。但是,对于模型中毒攻击,恶意的参与者可以直接修改更新后的模型并将其发送到服务器进行聚合。因此,即使只有一个攻击者,整个全局模型也可能被毒害。[158]的模拟结果也证实,即使是训练数据有限且高度受限的对手,在执行模型中毒攻击时也能获得较高的成功率。因此,必须开发保护全局模型免受模型中毒攻击的解决方案。
在[158]中,提出了一些防止模型中毒攻击的解决方案。首先,基于来自参与者的更新模型,服务器可以检查共享模型是否有助于提高全局模型的性能。如果不是,则参与者将被标记为潜在的攻击者,观察经过几轮该参与者的更新模型之后,服务器可以确定这是否是恶意的参与者。
第二个解决方案基于参与者共享的更新模型之间的比较。特别是,如果来自参与者的更新模型与其他模型差异太大,则参与者可能是恶意的。然后,服务器将继续观察来自该参与者的更新,然后才能确定这是否是恶意用户。然而,模型中毒攻击非常难以预防,因为在数百万参与者的培训中,很难评估每个参与者的改进。因此,需要进一步研究更有效的解决办法。
在[159]中,作者引入了一种更有效的模型中毒攻击,该模型证明,只需一轮学习,攻击者的任务就能达到100%的准确率。特别是,恶意的参与者可以共享其受毒害的模型,该模型不仅为其故意的目的而训练,而且还包含一个后门函数(backdoor function )。在本文中,作者考虑使用语义后门函数注入到全局模型中。(原因:即使不需要修改恶意参与者的输入数据,该函数也可以使全局模型分类错误。)例如,图像分类后门函数可以将攻击者选择的标签注入具有某些特定功能的所有图像,例如,所有带有黑色条纹的狗都可能被误分类为猫。模拟结果表明,这种攻击可以大大优于其他传统的FLl数据中毒攻击。例如,在一项总共有8万参与者的单词预测任务中,仅牺牲其中的8个就足以达到50%的后门准确率,而执行数据中毒攻击所需的恶意参与者有400个。

搭便车攻击:
搭便车是FL中的另一种攻击,当参与者想从全局模型中获益而又不想参与学习过程时,这种攻击就会发生。恶意的参与者,即free rider,可以假装它有非常少的样本要训练,或者它可以选择一个小的集合来训练它的真实数据集,例如,来节省它的资源。因此,诚实的参与者需要在FL训练过程中贡献更多的资源。为了解决这个问题,[160]中的作者引入了一种基于区块链的FL架构,称为BlockFL,在这种架构中,通过利用区块链技术来交换和验证参与者的本地学习模型更新。具体来说,每个参与者在区块链网络中训练并将训练好的全局模型发送给其关联的采矿者,然后获得与训练数据样本数量成比例的奖励,如图14所示。这样,这个框架不仅可以防止参与者搭便车,还可以激励所有参与者为学习过程做出贡献。
在这里插入图片描述

图14:传统FL和blockfl架构
在[161]中也引入了一个类似的基于区块链的模型,为FL的参与者提供数据保密性、计算可审核性和激励。然而,区块链技术的使用意味着实施和维护矿工操作区块链网络的重大成本。此外,在区块链网络中使用的一致性协议,例如工作证明(POW),会导致信息交换的长延迟,因此它们可能不适合在FL模型上实现。

总结

在本节中,我们讨论了两个关键问题,即,一般认为,FL是一种有效的隐私保护学习解决方案,可以帮助参与者进行协作模型训练。然而,在本节中,我们展示了恶意的参与者可以利用这个过程并获得对其他参与者的敏感信息的访问。此外,我们还证明了攻击者通过使用FL中的共享模型进行攻击,不仅可以破坏整个学习系统,而且可以伪造训练后的模型来达到其恶意目的。此外,本文还回顾了解决这些问题的方法,这些方法对于指导FL系统管理员设计和实施适当的对策尤为重要。表六总结了FL中攻击的关键信息及其应对措施。
在这里插入图片描述

6:FL在移动边缘网络优化中的应用。

在本节中,我们将重点讨论FL在移动边缘网络优化中的应用。正如[ 34 ]作者所强调的那样,无线网络的复杂性和异构性,增强了采用基于数据驱动的ML方法,来优化移动边缘网络的,系统设计和资源分配决策,的吸引力。但是,正如前面几节所讨论的,用户的私有数据在本质上可能是敏感的。因此,现有的基于学习的方法可以与FL相结合来保护隐私。在本节中,我们考虑FL在边缘计算中的四个应用:

网络攻击检测:
物联网设备的普遍存在和网络攻击的日益复杂化[162]意味着有必要改进现有的网络攻击检测工具。最近,DL在网络攻击检测方面取得了广泛的成功。与FL相结合,网络攻击检测模型可以在保护用户隐私的同时协同学习。
边缘缓存和计算分流:
考虑到边缘服务器的计算和存储能力限制,终端设备的一些计算密集型任务必须分流到远程云服务器进行计算。此外,通常被请求的文件或服务应该放在边缘服务器上,以便更快地检索。当用户想要访问这些文件或服务时,他们不必与远程云通信。因此,一个最优的缓存和计算卸载方案可以与FL协作学习和优化。
基站关联:
在一个密集的网络中,优化基站关联以限制用户面临的干扰是非常重要的。然而,利用用户数据的传统基于学习的方法通常假设这些数据是集中可用的。考虑到用户隐私的限制,可以采用基于FL的方法。
车辆网络:
车辆互联网(IoV)[163]的特点是智能车辆具有数据收集、计算和通信等相关功能,例如导航和交通管理。然而,这些丰富的知识在本质上是隐私和敏感的,因为它可以揭示司机的位置和个人信息。在本节中,我们讨论了基于FL的方法在IoV网络边缘的电动汽车充电站交通排队长度预测和能源需求中的应用。
A.

B.

C.

D.

7:FL的挑战,未解决的问题和未来的研究方向。

除上述问题外,在大规模部署fl方面还存在挑战、开放性问题和新的研究方向,下面将进行讨论。

A.挑战

退出的参与者:
第四节中讨论的方法,如[78]、[114]和[115],提出了新的参与者选择和资源分配算法,以解决训练瓶颈和资源异构性。在这些方法中,假定参与者的无线连接总是可用的。然而,在实践中,由于连接性或能量限制,参与的移动设备可能会离线并从fl系统中退出。大量的从训练参与中退出的设备会显著降低FL系统的性能[23],例如准确性和收敛速度。新的FL算法需要对网络中的设备掉线有很强的鲁棒性,并且能够预测只有少数参与者参加一轮训练的场景。一种可能的解决方案是:FL模型所有者提供免费的专用/特殊连接,例如蜂窝连接,以激励参与者避免退出。
隐私问题:
FL能够保护每个参与者的隐私,因为模型训练可以在本地进行,只需要与FL服务器交换模型参数。但是,正如[139]、[140]和[141]中所述,在训练过程中对模型更新进行通信仍然可能向对手或第三方泄露敏感信息。目前的方法提出了安全解决方案,如DP[20],[146]和[188],以及协作培训[147]和[149]。然而,采用这些方法牺牲了性能,即模型精度。它们还需要在参与的移动设备上进行大量计算。因此,在实现FL系统时,必须在隐私保护和系统性能之间取得平衡。
无标号数据:
值得注意的是,调查中回顾的方法是针对监督学习任务提出的。这意味着这些方法假定联合网络中的所有数据都有标签。然而,在实践中,网络中生成的数据可能是未标记或错误标记的[189]。要找到有适当数据用于模型训练的参与者,这对服务器来说是一个巨大的挑战。解决这一挑战可能需要解决FL系统系统中的可伸缩性、异构性和隐私性等挑战。一个可能的解决方案:让移动设备通过相互学习“标记数据”来构造其标记数据。
B.未决问题

移动设备之间的干扰:
现有的资源分配方法,如[78]和[115],都是基于移动设备的资源状态来进行参与者选择。事实上,这些移动设备可能在地理上彼此接近,即在同一个单位里。因此,可能需要将信道分配策略与资源分配方法相结合来解决干扰问题。虽然在[121]、[123]和[124]中的研究考虑了多访问模式和空中计算,但是这种方法是否具有可伸缩性,比如能够支持许多参与者的大型联合,仍然有待观察。为此,可以考虑采用基于数据驱动学习的解决方案,如联邦DRL,对移动边缘网络的动态环境进行建模并进行优化决策。
通信安全:
由于无线介质的公开特性,FL容易受到严重的安全问题,如分布式拒绝服务(DoS)[190]和干扰攻击[191]。特别是对于干扰攻击,攻击者可以发送具有高功率的射频干扰信号来中断或对移动设备与服务器之间的通信,对此造成干扰。这种攻击会导致模型上传/下载的错误,从而降低FL系统的性能,如准确性。可以采用诸如跳频之类的抗干扰方案(例如,在不同频率上发送模型更新的另一个副本)来解决该问题。
异步FL:
在同步FL中,每一轮训练的速度和最慢的设备(即最慢的设备)一样快,所以FL系统容易受到掉队者的影响。因此,异步FL在[111]和[129]中被提出作为一种解决方案。此外,异步FL还允许参与者中途参加FL训练,甚至在一轮训练正在进行的时候。这更能反映实际的fl设置,是确保FL可伸缩性的一个重要因素。然而,由于收敛保证,同步FL仍然是最常用的方法[77]。考虑到异步FL的诸多优点,应该探索新的异步算法。特别是对于未来提出的算法,需要考虑非凸损失函数在非iid条件下的收敛保证
激励机制设计:
在[130],[132]和[133]中提出的激励机制设计假设一个联盟仅由多个个体参与者组成,例如带有一个FL服务器的单独FL。这种设置可能有以下例外:(i)参与者可能是不愿分享其模型参数的竞争对手,因为竞争对手也受益于一个训练有素的全局模型(ii) FL服务器可能与其他FL服务器竞争,即模型的主人。在这种情况下,激励机制设计的制定将与所提议的有很大的不同。此外,还可以采用其他机制,如拍卖[193]、[194]。
C.未来发展方向

学习收敛的新研究:
算法的收敛性是算法的核心问题之一。FL查找权重以最小化全局模型聚合。这实际上是一个分布式优化问题,其收敛性并不总是保证的。对基于梯度下降的FL的凸和非凸损失函数的收敛范围进行理论分析和评价是重要的研究方向。虽然现有的研究已经涵盖了这个主题,但许多有限制的保证,例如,损失函数的凸性。
量化统计异质性的新工具:
移动设备通常通过网络以非IID方式生成和收集数据。此外,移动设备之间的数据样本数量可能有很大差异。为了提高算法的收敛性,需要对数据的统计异质性进行量化。最近的一些研究,如[195],已经开发出通过诸如局部差异等度量来量化统计异质性的工具。然而,在训练之前,很难通过联邦网络计算这些指标。这些指标的重要性激发了未来的发展方向,比如开发高效算法来快速确定联合网络的异构程度
减少通信的组合算法
目前,有三种常见的减少FL的通信技术,如第三节所述。研究如何将这些技术相互结合以进一步提高性能是很重要的。例如,模型压缩技术可以与基于重要性的更新技术相结合。这种组合能够显著减少从移动设备发送到服务器的模型更新的大小。但是,需要进一步评估这种组合技术的准确性和通信开销之间的权衡。特别是,对于我们在第三节中讨论的模拟结果,由于数据集和参与者数量不同,精确通信成本降低的权衡很难管理。
协作移动人群ML:
在现有的方法中,移动设备需要与服务器直接通信,这可能会增加能耗。实际上,附近的移动设备可以分组在一个集群中,服务器和移动设备之间的模型下载/上传可以通过一个作为中继节点的"簇头"来实现[196]。移动设备和簇头之间的模型交换可以在设备到设备(D2D)连接中完成。该模型可以显著提高能源效率。因此,可以设计高效的簇头协调方案,进一步提高FL系统的能源效率。
FL的应用:
由于保证数据隐私的优点,FL在许多应用中发挥着越来越重要的作用,如医疗、金融和交通系统。目前对FL应用的研究多集中在学习模型的联合训练上,忽略了学习模型的实现问题。对于未来FL的应用研究,在调查中需要考虑上述问题,如通信成本、资源分配、隐私和安全等,以确保FL系统是可行的、设计良好的、可扩展的。
8:总结全文。

本文介绍了FL的教程以及有关FL实施问题的全面调查。
首先,我们首先介绍MEC的动机,以及FL如何在移动边缘网络上用作协作模型训练的支持技术。
在此基础上,阐述了DNN模型训练、FL的基本原理和面向FL的系统设计。
然后,我们将针对FL中新出现的实施挑战提供详细的评论,分析和比较方法。 这些问题包括通信成本,资源分配,数据隐私和数据安全性。
在此基础上,讨论了基于FL的隐私保护移动边缘网络优化的实现。
最后,我们讨论了挑战,未解决的问题以及未来的研究方向。

文章最后发布于: 2019-10-16

Wei Yang Bryan Lim, etc. Federated Learning in Mobile Edge Networks: A Comprehensive Survey.相关推荐

  1. Federated Learning in Mobile Edge Networks: AComprehensive Survey(翻译)

    名词:联邦学习(FL).ML.MEC BAA(宽带模拟聚合).CNN(卷积神经网络).CV(计算机视觉). DDQN(双深度Q网络).DL(深度学习)DNN(深度神经网络). DP(差分隐私).DQL ...

  2. Deep Learning for Intelligent Wireless Networks: A Comprehensive Survey

    Deep Learning for Intelligent Wireless Networks: A Comprehensive Survey 基于智能无线网络的深度学习:全面调查 摘要 As a p ...

  3. 论文阅读:Deep Learning in Mobile and Wireless Networking:A Survey

    论文阅读:Deep Learning in Mobile and Wireless Networking:A Survey 从背景介绍到未来挑战,一文综述移动和无线网络深度学习研究 近来移动通信和 5 ...

  4. Communication-Efficient Federated Learning for Wireless Edge Intelligence in IoT

    概述 这篇论文的脉络是比较清晰的,讲的就两件事: 使用分布式的Adam优化来代替传统的FedAvg,减少通信轮次 对模型进行压缩和解压缩,减少通信开销 算法 框架图 整个算法的步骤如上图所示: 下载模 ...

  5. FedMood: Federated Learning on Mobile Health Data for Mood Detection 笔记

    摘要 作者主要从如下几个方面展开论述: 一.提出了一个新的联邦学习框架. 二.采取后期融合的方法来解决时间序列不连续的问题. 三.实验部分主要与其它的框架进行了比较. 介绍 这一部分首先讲了抑郁症目前 ...

  6. 2.Paper小结——《Privacy-preserving blockchain-based federated learning for traffic flow prediction》

    题目: 基于区块链的基于隐私保护的交通流量预测的联邦学习 0.Abstract: 交通流量预测已成为智能交通系统的重要组成部分.然而,现有的基于集中式机器学习的交通流量预测方法需要收集原始数据以进行模 ...

  7. Federated Learning of Multi-branch Networks from Periodically Shifting Distributions

    0.摘要 在实践中,联邦学习已被部署用于从移动设备上的去中心化客户端数据训练机器学习模型.观察到可用于训练的客户端具有随一天中的时间周期性变化的分布,这可能导致训练不稳定并降低模型性能.在本文中,我们 ...

  8. 初识联邦学习(Federated learning)

      联邦学习(Federated learning)最早在2016由谷歌提出,并在之后受到大量的关注.本文旨在简要介绍联邦学习,了解联邦学习的背景,而不关注联邦学习具体的实现方案.希望能解释通如下几个 ...

  9. 【阅读笔记】Towards Personalized Federated Learning个性化联邦综述

    文章目录 前言 1 背景 1.1 机器学习.联邦学习 1.2 促进个性化联邦学习的动机 2 个性化联邦学习的策略 2.1 全局模型个性化 2.1.1 基于数据的方法 2.1.1.1 数据增强 Data ...

  10. 【个性化联邦学习】Towards Personalized Federated Learning 论文笔记整理

    Towards Personalized Federated Learning 一.背景 二.解决策略 2.1 策略一.全局模型个性化 2.2 策略二.学习个性化模型 三.具体方案 3.1 全局模型个 ...

最新文章

  1. 图灵近期新书精彩不断,让你应接不暇!
  2. Redis配置不当可导致服务器被控制,已有多个网站受到影响 #通用程序安全预警#...
  3. 用麻酱+肉臊做成的面 —— 麻酱鲜虾面
  4. 学习笔记:CentOS 7学习之十一:文件的重定向
  5. 【转】ASP.NET之 关于触发Global.asax Session_End事件的经验
  6. 一些 Google 搜索词
  7. k8s StatefulSet
  8. decimal转为string sql_SQL注入详解|OWASP Top 10安全风险实践(二)
  9. 首次披露!阿里线下智能方案进化史
  10. 电路制版工作笔记001---印刷电路板的制作过程
  11. Vegas安装出现问题怎么办?
  12. 备份outlook的时候,请不要忘记同时备份Outlook.NK2文件
  13. java多商户商城系统源码下载
  14. 十大经典算法图解(详细版)
  15. java jco sap 重连_SAP R3和JAVA交换数据之JCO
  16. 微信公众号菜单html5,微信公众号自定义菜单全攻略
  17. android业余手机开发,赚钱心得
  18. RK3288方案开发,RK3288开发板方案,RK3288平板芯片参数资料
  19. 无响应 --- 问题事件名称: AppHangB1
  20. NFT Insider #48:The Sandbox发布内测版第二季,FTX Gaming与YGGIndia达成合作

热门文章

  1. 金蝶如何用计算机,金蝶软件要换电脑用,该怎么处理?
  2. 安全管家安卓_iOS 设备为什么百毒不侵?安全软件有用吗?
  3. 基于Django框架的物联网空气质量监测系统的实现
  4. 【手持式微波频谱分析仪】真正便携且功能强大的仪器 - 欧洲制造
  5. 射频能量用于治疗和美容
  6. 高通CAMERA 调试
  7. 34. 脱壳篇-FSG压缩壳、ImportREC修复IAT输入表的使用,令一种寻找OEP方式
  8. 初中计算机考试操作题免费,初中信息技术考excel操作题.doc
  9. Python全栈工程师系列学习之学习记录
  10. 电赛校赛经验-程控风力摆