Private FL-GAN: Differential Privacy Synthetic Data Generation Based on Federated Learning 私有FL-GAN:基于联邦学习的差分隐私合成数据生成

  • Abstract
  • 1.INTRODUCTION
  • 2.PRIVATE FEDERATED LEARNING OF GAN
    • 2.1. Algorithm summary
    • 2.2. Algorithm framework
    • 2.3. The model learning procedure
    • 2.4. Theoretical analysis
      • Differential Privacy
      • Parallel Composition
  • 3. EXPERIMENTS
    • 隐私级别对图像质量的影响
    • 隐私水平和网络收敛之间的关系
  • 4. CONCLUSION

Abstract

本文提出:一种基于联邦学习的差分隐私生成对抗网络模型

将Lipschitz极限与差分隐私敏感性相结合,该模型可以在不牺牲训练数据隐私的情况下生成高质量的合成数据。

1.INTRODUCTION

GAN应用示例:从文本生成图像,从静止图像生成视频,提高图像分辨率。

Post-Processing

  • DPGAN: 在训练中为鉴别器的梯度添加噪声,使GAN框架修改为差分隐私。
  • PATE-GAN: 将修改后的PATE框架应用于GAN。
  • GANobfuscator:使用精确设计的梯度剪枝策略,实现高质量的合成数据生成。

当前研究的不足:
出于隐私,集中式训练困难。

联邦学习差异隐私解决方案:

[15] Robin C Geyer, Tassilo Klein, and Moin Nabi, “Differentially private federated learning: A client level perspective,” arXiv preprint arXiv:1712.07557, 2017.

MD-GAN: 优化GAN模型分布式训练:

[17] Corentin Hardy, Erwan Le Merrer, and Bruno Sericola, “Md-gan: Multi-discriminator generative adversarial networks for distributed datasets,” in 2019 IEEE International Parallel and Distributed Processing Symposium (IPDPS). IEEE, 2019, pp. 866–877.

本文贡献:提出GAN私有联邦学习(FL-GAN)

2.PRIVATE FEDERATED LEARNING OF GAN

2.1. Algorithm summary

现有研究:对模型最终参数添加噪声

本文:在训练过程中添加噪声。使用 moments accountant 实时记录训练中的隐私损失

合成数据生成模型:梯度惩罚的WGAN

分布式存储数据训练模型:并行训练(parallel training);连环训练(serial training)

2.2. Algorithm framework

parallel training 核心思想:平均客户端的参数更新,完成每轮更新。

缺点: 频繁访问数据,增加隐私泄露风险;访问所有客户端后更新模型,对数据使用的浪费。

本文: 每个客户端依次更新同一模型参数。

2.3. The model learning procedure

在训练过程中添加噪声以满足差分隐私。

  1. 服务器初始化模型,包括鉴别器和生成器,将模型发送给任意客户端 i i i
  2. 客户端 i i i 训练 T g T_g Tg​ 轮,每轮训练中,鉴别器训练 T d T_d Td​ 轮后 合成器进行更新。
  3. 从余下客户端随机选一个,执行步骤 2 ,直到所有客户端都训练完,将最终模型返回服务器。

2.4. Theoretical analysis

私有FL-GAN建立在梯度惩罚的WGAN框架上,通过在更新鉴别器时加入噪声来实现差分隐私。

在计算每个训练数据的鉴别梯度后,加入高斯噪声(Alg.1 lines 10,11)。

使用隐私会计来跟踪训练中的隐私损失。a privacy accountant

Differential Privacy

随机函数 M M M 给出 ( ϵ , δ ) − d i f f e r e n t i a l p r i v a c y (\epsilon,\delta)-differential\quad privacy (ϵ,δ)−differentialprivacy,单条记录上所有不同的数据集 D 1 , D 2 D_1,D_2 D1​,D2​,所有 S ⊆ R a n g e ( M ) S\subseteq Range(M) S⊆Range(M)。 ϵ \epsilon ϵ 为隐私预算控制保护程度和噪音水平。

Parallel Composition

不相交子集 x i ⊆ x x_i\subseteq x xi​⊆x, 设 f ( x i ) f(x_i) f(xi​) 满足 ϵ \epsilon ϵ-差分隐私,应用所有查询 f ( x i ) f(x_i) f(xi​) 仍然满足 ϵ \epsilon ϵ-差分隐私。

Lemma 1.
抽样概率: q = m M q=\frac{m}{M} q=Mm​
每个内循环中鉴别器迭代次数: T d T_d Td​
隐私侵犯: δ \delta δ
对于正的 ϵ \epsilon ϵ: 鉴别器的参数对于 ( ϵ , δ ) (\epsilon,\delta) (ϵ,δ)-差分隐私 外部循环中使用的所有数据 满足:

算法1中的生成器输出保证了 ( ϵ , δ ) (\epsilon,\delta) (ϵ,δ)-差分隐私

proof:

根据Lemma 1. 每个客户端训练的鉴别器都满足差分隐私,在差分隐私的 后处理 (post-processing)属性 作用下,生成器也满足差分隐私。

由于并行理论(Parallel Theory),模型在客户端之间传递也不会增加其他客户端隐私泄露风险。

故 每一轮客户端训练中推导出的模型都是 ( ϵ , δ ) (\epsilon,\delta) (ϵ,δ)-差分私有

算法复杂度:
客户端每次通信 参数仅需在客户端之间传递一次。

FL-GAN 总通信复杂度: N ⋅ ( ∣ w ∣ + ∣ θ ∣ ) N\cdot(\lvert \mathcal w\rvert+\lvert \theta\rvert) N⋅(∣w∣+∣θ∣)

对于 DP-FL 方案,生成器一次迭代需要传递 T d T_d Td​ 次参数,总通信复杂度 T g ⋅ T d ⋅ N ⋅ ( ∣ w ∣ + ∣ θ ∣ ) T_g\cdot T_d \cdot N\cdot(\lvert \mathcal w\rvert+\lvert \theta\rvert) Tg​⋅Td​⋅N⋅(∣w∣+∣θ∣)

3. EXPERIMENTS

探索隐私水平和生成的数据质量之间的关系

MNIST: 70k 大小为 28 × 28 28\times28 28×28 的手写数字图像

CelebA: 200k 大小为 64 × 64 64\times64 64×64 的名人脸部图像

鉴别器 α d \alpha_d αd​ 和生成器 α g \alpha_g αg​ 的学习速率 1.0 × 1 0 − 4 1.0\times 10^{-4} 1.0×10−4指数衰减

batch size:64

每个客户端保留一定数量的数据用于训练:
MNIST: 分割为 N 1 ∈ [ 1 , 3 , 6 ] N_1\in[1,3,6] N1​∈[1,3,6],模拟 N 1 N_1 N1​ 个不同的数据持有者。

CelebA: 分割为 N 2 ∈ [ 1 , 10 , 20 ] N_2\in[1,10,20] N2​∈[1,10,20]

噪声尺度: δ = 1 0 − 5 \delta=10^{-5} δ=10−5

鉴别器迭代次数: T d = 5 T_d=5 Td​=5

在鉴别器网络上的激活函数为泄露ReLU(leaky ReLU)
导数的界 B δ ′ ≤ 1 B_{\delta^{'}}\le 1 Bδ′​≤1

隐私级别对图像质量的影响

通过设置不同的隐私参数 ϵ \epsilon ϵ 进行训练,得到了几个隐私保护级别的模型。


隐私水平较高时,可以生成较清晰的图像,较大的隐私参数对应高质量图像,表明:图像失真由噪声引起,而不是质量较差的训练集。

大的隐私参数意味着大的隐私泄露风险,也意味着更好的生成数据,需要在隐私和性能之间权衡。

对比FL-GAN 和 DP-FL:
计算合成数据的 Inception Score (IS)

有三种不同的客户端数量。

Inception Score (IS)得分越高,生成图像质量越高,多样性越大,当隐私参数到一定阈值,合成图像的质量可以与无隐私保护的FL-GAN媲美。

使用Frechet Inception Distance (FID)评估生成的数据,低分代表合成数据的高质量。

隐私水平和网络收敛之间的关系

带有梯度惩罚的WGAN 对每个样本独立施加梯度惩罚,Lipschitz极限要求鉴别器的梯度不超过K(通常设置为1)。

梯度惩罚就是设置一个额外的损失项将梯度与K关联起来,参数K与差分隐私敏感性完美匹配。

给梯度添加噪声前,对其剪辑,使梯度有一个清晰的灵敏度上界,将裁剪值设为K,避免梯度消失和爆炸,保证梯度有界性,便于高斯噪声加入。

从图6看出,仍然可以快速收敛

4. CONCLUSION

FL-GAN可以生成高质量的合成数据,并行训练最大限度利用各个数据库的数据。

【FL-GAN】Private FL-GAN: Differential Privacy Synthetic Data Generation Based on Federated Learning相关推荐

  1. 【教程搬运】最好的GAN系列教程在这里。

    [教程搬运]最好的GAN系列教程在这里. 1.初窥门径__生成对抗网络(GAN)(一) *GAN的基础知识 注意这个文章有个地方写的不够清楚,就是生成器和判别器训练的过程,我稍微阐述一下,就是: 第一 ...

  2. 【CVPR 2020】蒸馏篇(四):Online Knowledge Distillation via Collaborative Learning

    [CVPR 2020]蒸馏篇(四):Online Knowledge Distillation via Collaborative Learning 论文地址: 代码地址: 主要问题: 主要思路: 具 ...

  3. 【翻译论文】 Supervised Parametric Classification of Aerial LiDAR Data(2004)

    [翻译论文] Supervised Parametric Classification of Aerial LiDAR Data 航空激光雷达数据的监督参数分类 Amin P. Charaniya, ...

  4. 【分享预告】细数GAN和图像分类的前世今生

    这是本周的分享预告,一起来细数图像分类与GAN的前世今生. 更多,欢迎到知乎专栏去投稿与交流,配套资料将放出在github,可扫描二维码进入. 打一个小广告,我的计算机视觉公开课<AI 图像识别 ...

  5. 【论文阅读】2021年牛津大学的 Survey:Recent Advances in Reinforcement Learning in Finance

    1 本文概述 本文是牛津大学2021年对 深度强化学习在金融领域内各种决策的应用 的综述文章.文章分为四个部分,第一部分是整体介绍:第二部分详细介绍了强化学习的基础知识,包括马尔科夫决策过程的定义.基 ...

  6. 【论文翻译】Transferring GANs: generating images from limited data

    论文下载 论文目录 Abstract. 1 Introduction 2 Related Work 3 Generative Adversarial Networks 3.1 Loss functio ...

  7. 【AAAI 2021】在线知识蒸馏中的对等协同学习:Peer Collaborative Learning for Online Knowledge Distillation

    [AAAI 2021]在线知识蒸馏中的协同学习:Peer Collaborative Learning for Online Knowledge Distillation 论文地址: 主要问题: 主要 ...

  8. 【百战GAN】如何使用GAN拯救你的低分辨率老照片

    大家好,欢迎来到专栏<百战GAN>,在这个专栏里,我们会进行算法的核心思想讲解,代码的详解,模型的训练和测试等内容. 作者&编辑 | 言有三 本文资源与生成结果展示 本文篇幅:52 ...

  9. 【深度学习】遗传算法优化GAN

    作者 | Victor Sim 编译 | VK 来源 | Towards Data Science GANs是计算量最大的模型之一,因为它相当于同时训练两个神经网络.对于我那台糟糕的便携式计算机来说, ...

最新文章

  1. 【统计学习】统计学习方法概论
  2. boost::iostreams::filtering_ostream用法的测试程序
  3. 金古桥机器人_《泽塔奥特曼》奥特曼憋屈了,被机器人保护,金古桥可能才是主角...
  4. 前端学习(1879)vue之电商管理系统电商系统之通过axios拦截器添加token认证
  5. Serverless在游戏运营行业进行数据采集分析的最佳实践
  6. 免费使用3天!52CV GPU云大促,疫情期间做深度学习的首选!
  7. 戴尔服务器t系列和r系列,满足VR需求 戴尔升级T/R系列塔式工作站
  8. Git 在 Linux 上和 windows 上的安装
  9. sqlserve 热备用状态更新_什么是核心交换机的链路聚合、冗余、堆叠、热备份
  10. 苹果手表出现,请在iphone 打开apple watch 应用,前生Passcode,轻点密码重试
  11. 网页设计专家票选的16款常用英文字体
  12. 微信个人号API开发
  13. 【网络重置】WLAN消失/网络适配器黄色感叹号/无法识别无线网卡/解决方法汇总/Win10家庭版(个人留档)
  14. 华滋先生:互联网创业,加入社群是有用的吗?
  15. wxpython 优秀的界面_WxPython实现无边框界面
  16. 归纳法与面向对象思维
  17. Bitcherry BCHC:阿里收购考拉成跨境电商一哥 仍面平台临信任问题
  18. [工业互联-1]:工业互联全局概述
  19. c语言驱动显卡,佳能 Tesla C2050 驱动程序下载-更新佳能软件(显卡)
  20. [原创] RT7 Lite win7旗舰版精简方案

热门文章

  1. Spark中mapToPair和flatMapToPair的区别【附示例源码及运行结果】
  2. 慢查询的重构和优化特定类型的查询
  3. SAP-SD 销售返利
  4. RFC6749-OAuth2.0
  5. 给电单车装上一个防滑皮套
  6. WebAssembly黑暗的一面
  7. 有关计算机英语作文素材,一篇万能的高中英语作文素材
  8. 计算机系统基础-缓冲区溢出攻击
  9. forword 和redirect
  10. 金三银四真的是跳槽良机吗?资深人才从不根据月份跳槽