Federated Learning for Privacy-Preserving AI

  • 前言
  • 一、论文解析
    • Definition
    • Categorization
    • Architecture
    • Application Examples
      • Use Case 1:FedRiskCtrl
      • Use Case 2:FedVision
    • Outlook
  • 二、论文总结
  • 三、个人感悟

前言

一篇来自 Communications of ACM 的文章,这类期刊相当于magazine性质的文章,所以大多很短。之前阅读了PPFL的综述,对PPFL有了更深刻的认识,这篇文章的作者也是《联邦学习》的作者,所以我认为这篇会是《联邦学习》的精简版,阅读起来应该没什么瓶颈,那么就当做小说一样过一遍吧~


一、论文解析

如今在人工智能领域存在两大挑战:

  • 数据孤岛;
  • PPAL的需求日益增长。

传统的基于集中数据收集的人工智能方法无法应对这些挑战。如何在遵循隐私保护法律法规同时解决数据孤岛和碎片化问题,是当今人工智能领域的重大挑战。
法律层面的法律法规在不断完善,旨在保护用户的隐私不被泄露。在这样法律环境下,收集共享数据变得更加困难,一些敏感数据如医疗、金融数据更不允许获取。这也很自然联想到构建不依赖于将数据集中收集进行训练的模型。一个有吸引力的想法是使用本地数据集训练子模型,然后多方共享子模型构建全局模型。为了保护用户隐私和数据机密性,通信过程经过精心设计防止其他节点的反向重构,这就是FL(federated machine learning)背后的核心。

Definition

FL可以应用在B2C(企业->消费者),如谷歌的输入预测模型,所有的移动设备共享相同的数据特征训练ML模型。此外FL在B2B模式下可以支持“打破数据孤岛”场景,每个参与方有不同的数据特征。总之,FL通过安全的方式传输模型参数使各方不能访问他人的数据,FL的特征如下:

  • 多个参与方共建模型;
  • 每个参与方持有训练的数据集;
  • 模型训练过程中本地数据不会离开;
  • 模型在加密方案下从一方转移到另一方;
  • FL的性能接近集中式数据集构建的理想模型。

PPFL已经得到广泛研究,如:

  • 差分隐私
  • 安全多方计算

差分隐私是在训练数据中加入噪声,涉及到准确性和隐私性的权衡。

Categorization

根据数据在特征空间和样本空间的分布情况,FL可以分为横向联邦学习(HFL),纵向联邦学习(VFL)以及联邦迁移学习(FTL)。
HFL应用在双方数据特征空间重叠样本空间不重叠的场景,VFL适用于双方样本空间重叠但数据特征不重叠的场景,FTL适用于数据样本和特性重叠较少的场景。

Architecture

FL系统体系结构可以采用client-server模型,如图2(a)所示,协调者C可以是权威机构(如政府)扮演,或者是安全计算节点。C与A,B之间的通信可以进一步加密(同态加密)防止传输过程中隐私被泄露,当然,协调者C也可以是逻辑实体位于A和B中。FL架构也可以采用对等模型,如图2(b)所示,数据所有者不需要第三方的协助。
以client-server模型为例,在将两个数据集数据样本对齐后,使用VFL加密和安全训练的步骤如下:

  1. 协调者C创建加密秘钥对分发给A,B;
  2. A和B加密并交换中间计算结果(梯度、权重);
  3. A和B各自计算加密的梯度并添加掩码,B同时计算被加密的损失,A和B把加密结果发送给C;
  4. C解密梯度和损失,把相应结果发送回A和B。A和B去除掩码并更新各自模型参数。

Application Examples

FL可以在符合法律法规的前提下构建跨企业、跨数据、跨领域的AI应用。它在金融、保险、医疗、教育、智慧城市和边缘计算等领域有潜在的应用前景,这里介绍已经在实际中部署的两个案例。

Use Case 1:FedRiskCtrl

第一个例子是FL应用在金融领域。这是微众银行对于小型贷款企业(SME)实施的风控例子。一家发票代理公司A和银行B,A有许多相关的数据特征,如对于第k个SME有{Xm(k)}m=1M\left \{X_{m}^{(k)}\right \}_{m=1}^{M}{Xm(k)​}m=1M​,银行B有与信贷相关的数据特征,比如对于第k个SME有{Xn(k)}n=M+1N\left \{X_{n}^{(k)}\right \}_{n=M+1}^{N}{Xn(k)​}n=M+1N​以及Y(k),其中N > M。A和B利用VFL合作构建了SME的风控模型。
在训练之前,需要对A和B的SME数据进行对齐(安全实体对齐),之后可以按照图2的训练步骤进行训练。
模型的训练结果接近集中式数据集训练结果,并且由于仅仅由B银行数据建立的模型。

Use Case 2:FedVision

第二个用例是边缘计算中FL的运用。这是微众银行部署的目标检测联邦计算机视觉(federvision)的一个例子。
由于隐私方面的考虑和视频数据传输成本较高,在实践中很难集中采集监控视频数据进行模型训练。使用FedVision,不需要将每个监控公司的边缘云采集到的视频数据上传到中央云进行集中式模型训练。在FedVision中,最初的目标检测模型从FL服务器发送到每个边缘云,然后边缘云使用本地数据进行训练。经过几次本地训练后每个边缘云的模型再加密发送回FL服务器,FL服务器聚合多方模型参数成一个全局模型,并发送回每个边缘云。此过程不断迭代直到满足停止条件。
最终的模型会被分发给参与FL的监控公司,用于目标检测。

Outlook

FL是AI的发展方向,可以帮助AI爆发更大的潜能。虽然现在仍有一系列问题,比如数据所有者和协调器之间通信缓慢或者不稳定、不同数据所有者数据分布不一致等等,此外,为了激励更多参与方参与到FL中来,以及保证公平性和可持续性,还需要对FL的激励机制进行设计。

二、论文总结

本篇论文从需求出发,指出了当今AI遇到的一系列问题,接着简单介绍了FL,说明了FL的优势,最后列举两个实际应用的例子,总结一下,正如文中所说:FL can overcome the challenges of data silos, small data,privacy issues, and lead us toward privacy-preserving AI.(FL可以克服数据孤岛、小数据、隐私问题的挑战,并引领我们走向面向隐私保护的AI。)

三、个人感悟

正如前言预测,这篇论文确实是《联邦学习》的精简版,甚至配图都一样,但是这也只是简单介绍了《联邦学习》的前几章内容,对于激励机制部分只是一笔带过,应用部分举了两个实例,确实很典型,也很有应用前景。总而言之,这篇文章可以说是一篇科普文,文章简短干练,适合对FL感兴趣的初学者阅读,如果已经对FL有所了解可以直接跳过了。

【阅读笔记】Federated Learning for Privacy-Preserving AI相关推荐

  1. [文献阅读笔记]Machine Learning DDoS Detection for Consumer Internet of Things Devices 2018 IEEE SPW

    [文献阅读笔记]Machine Learning DDoS Detection for Consumer Internet of Things Devices 2018 IEEE SPW 1.INTO ...

  2. 【论文阅读笔记】Learning To Detect Unseen Object Classes by Between-Class Attribute Transfer

    摘要: 本文主要研究训练和测试类别不相交时(即没有目标类别的训练示例)的对象分类问题.在此之前并没有对于毫无关联的训练集和测试集进行对象检测的工作,只是对训练集所包含的样本进行分类.实验表明,通过使用 ...

  3. 【论文阅读】Federated Learning应用扩展合集

    2020-MM-Performance Optimization for Federated Person Re-identification via Benchmark Analysis 动机:联邦 ...

  4. 论文阅读笔记--Federated Continual Learning with Weighted Inter-client Transfer

    本文提出了一种新的场景,联邦学习(FL)的每个client各自执行一系列的持续学习(Continual Learning)任务,为了说明这个场景的实际意义,文章给出了这样一个场景: 若干个医院要通过一 ...

  5. [论文阅读笔记58]Learning from Noisy Labels with Deep Neural Networks:A Survey

    1.题目 Learning from Noisy Labels with Deep Neural Networks: A Survey 作者团队:韩国科学技术院(KAIST) Song H , Kim ...

  6. RASNet阅读笔记:Learning Attentions: Residual Attentional Siamese Network for High Performance Online Vis

    CVPR2018 论文在此 文章全称:Learning Attentions: Residual Attentional Siamese Network for High Performance On ...

  7. 阅读笔记-Active Learning For Wireless IoT Intrusion Detection

    文章发表于2018年 IEEE WIreless Commmunications,作者来自同济大学以及AT&T Lab 本文主要研究的是无线入侵检测里的human-in-the-loop ac ...

  8. 阅读笔记|Ensemble Learning for Multi-Source Neural Machine Translation

    原文链接: Ensemble Learning for Multi-Source Neural Machine Translation Abstract 本文描述和评价了神经机器翻译(NMT)中进行集 ...

  9. 【论文阅读】Federated Learning on Non-IID Data Silos: An Experimental Study

    阅读目标: 了解解决异构性问题的角度 了解解决异构性问题的方法 阅读结束回答: 标签.特征.量 FedAvg.FedProx等,并不是我想要的解决复杂异构性的方法 动机:隐私保护和数据条例的出现,导致 ...

  10. 自监督论文阅读笔记 Self-supervised Learning in Remote Sensing: A Review

    深度神经网络对大量数据的丰富结构进行建模的优势已经导致了计算机视觉.自然语言处理.自动语音识别和时间序列分析的重大突破.然而,深度神经网络的性能对训练数据的大小和质量非常敏感.因此,在过去十年中,已经 ...

最新文章

  1. Spring源码分析【7】-Spring 模板页和JSP文件的编译
  2. trogan连接不上_解决连接不上网(Connection not connected).doc
  3. log4j2的配置文件log4j2.xml笔记
  4. 【脚下生根】之深度探索安卓OpenGL投影矩阵
  5. 推荐系统中多值特征的八大处理技巧
  6. 深入探究.Net Core Configuration读取配置的优先级
  7. [Codeforces673A]Bear and Game(水题,思路)
  8. linux 解压安卓内核,解压内核镜像
  9. 应用发布服务器_Apache Tomcat 10.0.0-M1 发布,开源 Web 应用服务器
  10. Python计算斐波那契数列
  11. Elasticsearch 动态映射——自动检测
  12. TCP新手误区–心跳的意义
  13. Nginx location 配置踩坑过程分享
  14. 官方高清标准地图素材下载地址
  15. Laravel Eloquent 数据查询结果中日期的格式化
  16. Bouncy Castle 密码包的配置及使用详解
  17. 穷举、贪心算法--泊松分酒(2)
  18. 字节跳动面经(2020春招)
  19. PS CS6正版带序列号百度网盘下载地址
  20. 解决浏览器滚动条导致的页面闪烁问题

热门文章

  1. Cocos Creator 随笔(1)-- 世界坐标,相对坐标转换问题
  2. bat 批处理 小工具
  3. 计算机考研各科复习时间规划,2020考研科学复习时间表,985学长强力推荐!
  4. 无人机飞控平台ArduPilot源码入门教程 — 简介
  5. 51单片机实现万年历
  6. 浅析提高倾斜摄影超大场景的三维模型轻量化的数据质量关键技术
  7. 三星同时发展两种电视面板技术,围追堵截LG
  8. 【每日一题】电话号码
  9. 美团CAT客户端集成
  10. 名片制作:25款现代名片设计实例及模板