[AISTATS21]Towards Flexible Device Participation in Federated Learning论文阅读

论文下载

  • arXiv: https://arxiv.org/abs/2006.06954

  • PMLR: http://proceedings.mlr.press/v130/ruan21a.html

论文解读

主要贡献和解决的问题

  • 传统的FL算法(FedAvg)对于设备的**参与(Participation)**有很多限制;
  • 本文将现有的学习模式拓展至允许设备不活跃(inactive)计算不全的更新次数在训练中到达或离开的场景;
  • 给出了设备的灵活参与情况对于non-IID数据集时的收敛性。

设备的几种灵活的状态

  • 不完全性(Incompleteness):每轮迭代时设备不一定能完成EEE轮本地更新;
  • 不活跃(Inactivity):设备不做任何模型更新,对中心节点不作反应;
  • 早退(Early departures):极端情况下,设备更新了几轮本地更新之后跑路了,没完成E轮本地更新;
  • 迟到(Late arrivals):除了现有设备,新的设备可能在训练开始之后突然加入;
  • 不活跃和早退的关系:不活跃可能是暂时的装死,早退就是不会再回来参与了。

建模

  • NNN个设备,每个设备kkk的本地目标函数Fk(ω)F_k(\omega)Fk​(ω),ω\omegaω为模型,全局目标函数为F(ω)=∑k=1NpkFk(ω)F(\omega)=\sum_{k=1}^Np^kF_k(\omega)F(ω)=∑k=1N​pkFk​(ω),其中pk=nknp^k=\frac{n_k}{n}pk=nnk​​,为本地数据集样本数与所有设备的总样本数之比;

  • 量化数据non-IID程度的指标:Γ=∑k=1NpkΓk\Gamma=\sum_{k=1}^Np^k\Gamma_kΓ=∑k=1N​pkΓk​,其中Γk=Fk(ω∗)−Fk∗\Gamma_k=F_k(\omega^\ast)-F^\ast_kΓk​=Fk​(ω∗)−Fk∗​​;

  • 当时间ttt是EEE​的倍数时进行一次聚合,假设需要TTT轮,记每一轮为第τ\tauτ轮;

  • 具体步骤如下:


  • 注意到每一轮设备kkk​​执行的本地更新次数为sτk∈[0,E]s_{\tau}^k\in[0,E]sτk​∈[0,E]​,作者将这一变量视为随机变量;

    • 其中sτk=0s_{\tau}^k=0sτk​=0对应设备kkk在第τ\tauτ轮不活跃(Inactive)
    • 其中sτk∈(0,E)s_{\tau}^k\in(0,E)sτk​∈(0,E)​对应设备kkk​在第τ\tauτ​​轮执行不完全(Incomplete)
  • 模型聚合权重pτkp_{\tau}^{k}pτk​由于设备的灵活参与会发生变化。

收敛性

  • 假设:

  • 定理一展示了收敛速度受到权重pτkp_{\tau}^{k}pτk​​​​​的影响:

目标转移

  • 全局目标函数是参与训练设备本地目标函数的平均:F(ω)=∑k∈CpkFk(ω)F(\omega)=\sum_{k\in C}p^kF_k(\omega)F(ω)=∑k∈C​pkFk​(ω),CCC是参与训练的设备集合;

  • 设备迟到/早退会导致pkp^kpk​和F(ω)F(\omega)F(ω)​改变,从而使原本的全局最优解ω∗\omega^\astω∗改变,即目标转移Objective shift);

  • 定理二给出了设备迟到或早退对全局最优解偏离的影响:

  • 假设目标转移发生在τ0\tau_0τ0​,则剩余部分的模型训练等价于起始于ωτ0Eg\omega_{\tau_{0}E}^{g}ωτ0​Eg​,且向ω~∗\widetilde{\omega}^\astω∗​​收敛,结合上述两个定理,得出了以下推论:

  • 事实上,有设备离开时,保持原有的目标函数有助于得到更小的traning loss;

  • 尽管有设备迟到时,目标转移是强制发生的,可以让到达的设备执行更多次的本地更新;

主要结论即对设备灵活状态的解决方案

不完全聚合的去偏(Debiasing on Incomplete Aggregation)

  • 从定理一看出收敛界由pτkp_\tau^kpτk​的期望控制,因此如何选择pτkp_\tau^kpτk​就很关键;

  • 本文给出了三种pτkp_\tau^kpτk​的取值的方案:

    • 其中方案A和B都是FedAvg的正常拓展情况;
    • 方案C让执行少于EEE​次本地更新的设备拥有更大的模型聚合系数。
  • 因此给跑本地更新次数少的设备安排一个更大的系数就能够更高效地继续进行训练,弥补其他设备多跑的本地更新,这与我先前follow的一篇NIPS论文Tackling the Objective Inconsistency Problem in Heterogeneous Federated Optimization有异曲同工之妙,图解为:

迟到设备的快速重启(Fast-rebooting on Arrivals)

  • 当新设备lll​到达时,ω~∗\widetilde{\omega}^\astω∗​​会被拽向其本地​最优解ωl∗\omega_l^\astωl∗​​;

  • 解决方案即在梯度聚合时加上一项−δl▽Fl(ωg),δl>0-\delta^l\triangledown F_l(\omega^g), \delta^l>0−δl▽Fl​(ωg),δl>0​,能够使全局模型更靠近ω~∗\widetilde{\omega}^\astω∗,并使训练快速重启,其理论支持为:

重新定义离开设备的适用性(Redefining Applicabiltiy on Departures)

  • 在一个设备离开之后,既可以将其排除在训练之外,转变目标函数,也可以保持原来的目标函数不变;

  • 到底如何选择新的目标函数,变还是不变,取决于设备离开的时间τ0\tau_0τ0​,有以下理论支撑:

实验

  • 实验较为复杂,较难复现。

一些感想

  • 这篇文章把participation的各种情况概括的非常完整了,结合上面提到的NIPS论文,会很有启发;
  • 收敛性的证明虽然技巧和经典的方法差不多,但是略显复杂。
  • 我对本文看得其实并不是很仔细,之前有好几篇收敛性证明及Digital FL的相关论文也非常精彩,有空再进行分享。

[AISTATS21]Towards Flexible Device Participation in Federated Learning阅读笔记相关推荐

  1. Blockchain Assisted Decentralized Federated Learning 阅读笔记 TPDS’2022

    Introduction 区块链可以用于取代联邦学习中的中心聚合服务器 目前的区块链联邦学习中的区块链和参与联邦学习的用户独立,相当于服务器换成了一条区块链,也会有隐私泄漏的风险 目前的区块链联邦学习 ...

  2. Ranked List Loss for Deep Metric Learning | 阅读笔记

    Ranked List Loss for Deep Metric Learning | 阅读笔记 这是CVPR2019上一篇度量学习的论文. 摘要 深度度量学习(DML)的目的是学习可以捕获数据点之间 ...

  3. Bayesian Compression for Deep Learning 阅读笔记

    Bayesian Compression for Deep Learning 阅读笔记 一.论文摘要 二.模型介绍 2.1 概述 2.2 变分贝叶斯和最小描述长度 2.2.1 变分推断 2.2.2 最 ...

  4. 【个性化联邦学习】Towards Personalized Federated Learning 论文笔记整理

    Towards Personalized Federated Learning 一.背景 二.解决策略 2.1 策略一.全局模型个性化 2.2 策略二.学习个性化模型 三.具体方案 3.1 全局模型个 ...

  5. Alpa: Automating Inter- and Intra-Operator Parallelism for Distributed Deep Learning阅读笔记

    Alpa: Automating Inter- and Intra-Operator Parallelism for Distributed Deep Learning Alpa阅读笔记 一.论文的研 ...

  6. T-PAMI-2021论文Semi-Supervised Multi-View Deep Discriminant Representation Learning阅读笔记

    提示:文 0.论文信息 题目:Semi-Supervised Multi-View Deep Discriminant Representation Learning 期刊: IEEE Transac ...

  7. Exploiting Shared Representations for Personalized Federated Learning 论文笔记+代码解读

    论文地址点这里 一. 介绍 联邦学习中由于各个客户端上数据异构问题,导致全局训练模型无法适应每一个客户端的要求.作者通过利用客户端之间的共同代表来解决这个问题.具体来说,将数据异构的联邦学习问题视为并 ...

  8. DBA: Distributed Backdoor Attacks against Federated Learning论文笔记

      作者:Chulin Xie  Keli Huang  Pin-Yu Chen  Bo Li 来源:ICLR 2020 发表时间:May 26,2020   背景: 联邦学习能够聚合各方提供的信息, ...

  9. Distantly Supervised NER with Partial Annotation Learning and Reinforcement Learning阅读笔记

    论文地址:Distantly Supervised NER with Partial Annotation Learning and Reinforcement Learning (aclanthol ...

  10. FeUdal Networks for Hierarchical Reinforcement Learning 阅读笔记

    FeUdal Networks for Hierarchical Reinforcement Learning 标签(空格分隔): 论文笔记 增强学习算法 FeUdal Networks for Hi ...

最新文章

  1. FoxPro 常用内部函数
  2. Redis 2.8.18 安装报错 error: jemalloc/jemalloc.h: No s
  3. 从用户观点对计算机如何分类,从用户的观点看操作系统是
  4. Google Drive的linux客户端使用(还没弄完)
  5. PropertyPlaceholderConfigurer实现配置文件读取
  6. 树状数组-神奇的二进制
  7. leetcode 10 --- 正则表达式匹配
  8. python中range和arange的区别_Python3中range , arange 和linspace 的异同
  9. 小程序解决方案 Westore - 组件、纯组件、插件开发
  10. 持有1000枚比特币及以上的地址数量创历史新高
  11. IE6下透明PNG图片的显示
  12. Qt4_使用QXmlStreamReader读取XML
  13. 如何选择视频编码格式
  14. 公司电脑策略强制自动锁屏解决方案
  15. [论文阅读] (21)SP21 Survivalism: Systematic Analysis of Windows Malware Living-Off-The-Land (经典离地攻击51)
  16. PHP:Fatal error: Class 'COM' not found in … 的处理办法
  17. 制作一个简单的网页(入门篇)
  18. MongoDB的多表关联查询
  19. mysql系列之十一许可更新及对象搜索
  20. 绍兴一中信心赛 T1排列

热门文章

  1. unity 控制对象移动、旋转
  2. 想做IT行业项目管理,面向客户方向的,考ITIL和PMP哪个更好一些?
  3. GhostXP_SP3电脑装机终极版V9.7 (NTFS版)
  4. python excel截图保存_如何用Python读取Excel中图片?又如何用Python往Excel中写入图片?...
  5. banner轮播图实现
  6. 安卓手机如何打开.crx文件_crx文件怎么打开
  7. 【web前端】第二天-HTML标签(下)
  8. litesql mysql 使用_Mysql 的使用方法
  9. 人类简史--经典语句摘录
  10. 电影记忆之20(恐怖游轮)