联邦学习

  • 写在前面
  • 联合概率分布
  • 联邦学习中客户端数据Non-IID分布的五种类型:
    • 类型1:Feature distribution skew (convariate shift)
    • 类型2:Label distribution skew (prior probability shift)
    • 类型3:Same label, different features (concept shift)
    • 类型4:Same features, different label (concept shift)
    • 类型5:Quantity skew or unbalancedness
  • Federated Learning on Non-IID Data: A Survey
  • 参考资料

写在前面

在介绍联邦学习客户端之间数据Non-IID分布前,我们需要先了解Dataset Shift的概念。

联邦学习中客户端之间Non-IID分布和我们在做机器学习任务时可能遇到的训练集与测试集分布不一致其实是一个道理(因为你可以把训练集想象成客户端1,测试集想象成客户端2)。

训练集和测试集分布不一致被称作数据集偏移(Dataset Shift)。西班牙格拉纳达大学Francisco Herrera教授在他PPT《Dataset Shift in Classification: Approaches and Problems》里提到数据集偏移有三种类型:

  • 协变量偏移(Covariate Shift): 独立变量的偏移,指训练集和测试集的输入服从不同分布,但背后是服从同一个函数关系,如图1所示。
  • 先验概率偏移(Prior Probability Shift): 目标变量的偏移。
  • 概念偏移(Concept Shift): 独立变量和目标变量之间关系的偏移。

联合概率分布

数据集(X,Y)可以看作从联合概率分布P(X,Y)中采样得到

联邦学习中客户端数据Non-IID分布的五种类型:

类型1:Feature distribution skew (convariate shift)

不同客户端 Pi(x)\mathcal{P}_i(x)Pi​(x)分布不相同,P(y∣x)\mathcal{P}(y|x)P(y∣x)分布相同。

举个例子:

在数字手写识别任务上,不同的人可以看作不同的客户端,小明喜欢写豪放版的"3"(特征x),而小红喜欢写苗条版的"3"(特征x),那么在小明这个客户端上的分布Pi(x)\mathcal{P}_i(x)Pi​(x)中豪放版的"3"概率较高,而小红则相反(也就是说不同客户端 Pi(x)\mathcal{P}_i(x)Pi​(x)分布不相同)。但是呢,当 x = 豪放版"3"时,不同客户端用这个特征x预测出来的标签y=3的概率是相近的(也就是说P(y∣x)\mathcal{P}(y|x)P(y∣x)分布相同)。

下面这篇论文的实验设置就是Feature distribution skew

论文地址:https://arxiv.org/pdf/2006.04088.pdf

Those who have the same rotation are from the same distribution.

类型2:Label distribution skew (prior probability shift)

不同客户端 Pi(y)\mathcal{P}_i(y)Pi​(y)分布不相同,P(x∣y)\mathcal{P}(x|y)P(x∣y)分布相同。

以MNIST数据集为例,客户端1有90%的数字1,10%的其他数字,客户端2有95%数字7,10%的其他数字…,这种情况就是不同客户端 Pi(y)\mathcal{P}_i(y)Pi​(y)分布不相同。而当y给定时,比如y等于7,那即使是不同的客户端,对应的特征x大概率是7的形状,所以说P(x∣y)\mathcal{P}(x|y)P(x∣y)分布相同

下面这篇论文的实验设置就是Label distribution skew

论文地址:http://www.lamda.nju.edu.cn/lixc/papers/FedRS-KDD2021-Lixc.pdf

类型3:Same label, different features (concept shift)

不同客户端P(x∣y)\mathcal{P}(x|y)P(x∣y)分布不相同, Pi(y)\mathcal{P}_i(y)Pi​(y)分布相同。

P(x∣y)\mathcal{P}(x|y)P(x∣y)分布不相同可以这样去理解:同样是房子(y相同),欧洲(客户端1)的房子和中国(客户端2)的房子对应的形态是不同的(x不同)

类型4:Same features, different label (concept shift)

不同客户端P(y∣x)\mathcal{P}(y|x)P(y∣x)分布不相同, Pi(x)\mathcal{P}_i(x)Pi​(x)分布相同。

P(y∣x)\mathcal{P}(y|x)P(y∣x)分布不一致,举例来说,不同读者(客户端)对于同一条新闻事件(x)持有不同的看法(y)

类型5:Quantity skew or unbalancedness

这种类型最简单,就是指不同客户端的训练集的数量差异很大。

举个例子:客户端 iii 有100个样本,而客户端 jjj 有2万个样本

Federated Learning on Non-IID Data: A Survey

  • https://arxiv.org/pdf/2106.06843.pdf


参考资料

  • 综述:Advances and Open Problems in Federated Learning
    地址:https://arxiv.org/abs/1912.04977
  • 训练/测试集分布不一致解法总结
  • http://iwann.ugr.es/2011/pdf/InvitedTalk-FHerrera-IWANN11.pdf
  • https://xwzheng.gitbook.io/fl/03-efficiency_and_effectiveness

联邦学习中常见的Clients数据Non-IID非独立同分布总结相关推荐

  1. 基于联邦学习的多源异构数据融合算法

    摘 要 随着科技的迅猛发展,具有计算和存储能力的边缘设备数量不断增加,产生的数据流量更是呈指数式增长,这使得以云计算为核心的集中式处理模式难以高效处理边缘设备产生的数据.另外,由于边缘网络设备的多样性 ...

  2. 基于联邦学习的多源异构数据融合算法 Multi-Source Heterogeneous Data Fusion Based on Federated Learning

    5.基于联邦学习的多源异构数据融合算法 Multi-Source Heterogeneous Data Fusion Based on Federated Learning 摘要:随着科技的迅猛发展, ...

  3. 联邦学习中的数据异构性问题综述

    摘要 联邦学习中的数据异构性问题主要是由参与训练的各客户端的数据虽独立分布但不服从同一采样方法(Non-IID)所导致的,这一问题也导致模型精度的严重下降.如何缓解Non-IID带来的不利影响目前仍是 ...

  4. 创新工场南京人工智能研究院执行院长冯霁:联邦学习中的安全问题

    近期,创新工场南京人工智能研究院执行院长冯霁做客雷锋网AI金融评论公开课,以"浅析联邦学习中的安全性问题"为题,详尽地讲解了联邦学习的特点.联邦学习的应用和安全防御对策等内容. 以 ...

  5. 平安科技王健宗:所有AI前沿技术,都能在联邦学习中大展身手

    「AI 技术生态论」 人物访谈栏目是 CSDN 发起的百万人学 AI 倡议下的重要组成部分.通过对 AI 生态顶级大咖.创业者.行业 KOL 的访谈,反映其对于行业的思考.未来趋势判断.技术实践,以及 ...

  6. 联邦学习中的non-iid总结

    最近研究联邦学习(federated learning,FL)中的non-iid的解决办法时遇到瓶颈,写成博客将最近的工作总结一下,希望有大佬看到这篇博客不吝赐教. 什么是non-iid 先从维基百科 ...

  7. 数据分析综述:联邦学习中的数据安全和隐私保护问题

    ©作者 | Doreen 01 联邦学习的背景知识 近年来,随着大量数据.更强的算力以及深度学习模型的出现,机器学习在各领域的应用中取得了较大的成功. 然而在实际操作中,为了使机器学习有更好的效果,人 ...

  8. 干货!联邦学习中的合作均衡

    点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入! 联邦学习(federated learning)是指在保护数据隐私的前提下实现分布式多数据源模型训练的学习范式.由于各个数据源的统计异质 ...

  9. 联邦学习中的安全聚合SMPC

    目录 一.背景 1.1 联邦聚合与FedAVG 1.2 FATE 1.3 密钥协商(Key Agreement) 1.4 秘密共享(Secret Sharing) 二.安全聚合SMPC 2.1 原理 ...

最新文章

  1. laravel 是怎么做到运行 composer dump-autoload 不清空 classmap 映射关系的呢?
  2. javascript内置顶层函数
  3. html文档表示表格的标记,【单选题】在HTML文档中用于表示表格的标记对是( )...
  4. 常州大学阿里云大数据学院举行“创新思维”课程答辩
  5. 【NYOJ-35】表达式求值——简单栈练习
  6. 通向架构师的道路(第一天)之Apache整合Tomcat
  7. 自写图片遮罩层放大功能jquery插件源代码,photobox.js 1.0版,不兼容IE6
  8. 合格架构师的目标管理
  9. Asp.Net--回调技术
  10. python爬电影_零基础Python爬虫实现(爬取最新电影排行)
  11. 记centos7.2+上tomcat启动成功的监控脚本和nginx可配置多个域名
  12. 华旭 身份证读卡器测试软件_华旭HX-FDX3S读卡器驱动+身份证验证软件
  13. 七年级画图计算机教案,信息技术画图软件学习教案
  14. 手机 人人网android 2.2,人人网客户端安卓版
  15. ZBrush如何结合数位板雕刻模型
  16. 判断是否为IE浏览器
  17. 实用Windows网速监控软件TrafficMonitor
  18. python父亲节快乐_一个“MacBook”新手的Python“笨办法”自学之旅 #第七章:字符串、文本、各种打印、转义序列、手动输入raw_input()...
  19. MacBook安装rar解压工具
  20. 如何查看自己电脑显卡对应的cuda版本

热门文章

  1. 双电阻差分电流采样_合金取样电阻的作用特点及应用
  2. 项目教程 | Pycharm+Pyqt5+Eric6实现逻辑与界面分离(实例教学)
  3. 大文件上传最全方案:秒传、断点续传、分片上传
  4. java获取字符串占用的字节大小,以及不同编码下一个汉字占用的字节数
  5. SQL语句操作数据2
  6. 【华为校园优招】华为苏研2日面试之旅
  7. All shapes must be fully defined: [TensorShape([Dimension(299), Dimension(299), Dimension(3)])
  8. 烹饪专业的计算机课程,烹饪专业自考生如何通过计算机等级考试
  9. Mysql复习计划(一)- 字符集、文件系统和SQL执行流程
  10. 【代码训练营】day56 | 647. 回文子串 516.最长回文子序列