【FL-GAN】Private FL-GAN: Differential Privacy Synthetic Data Generation Based on Federated Learning
Private FL-GAN: Differential Privacy Synthetic Data Generation Based on Federated Learning 私有FL-GAN:基于联邦学习的差分隐私合成数据生成
- Abstract
- 1.INTRODUCTION
- 2.PRIVATE FEDERATED LEARNING OF GAN
- 2.1. Algorithm summary
- 2.2. Algorithm framework
- 2.3. The model learning procedure
- 2.4. Theoretical analysis
- Differential Privacy
- Parallel Composition
- 3. EXPERIMENTS
- 隐私级别对图像质量的影响
- 隐私水平和网络收敛之间的关系
- 4. CONCLUSION
Abstract
本文提出:一种基于联邦学习的差分隐私生成对抗网络模型
将Lipschitz极限与差分隐私敏感性相结合,该模型可以在不牺牲训练数据隐私的情况下生成高质量的合成数据。
1.INTRODUCTION
GAN应用示例:从文本生成图像,从静止图像生成视频,提高图像分辨率。
Post-Processing
- DPGAN: 在训练中为鉴别器的梯度添加噪声,使GAN框架修改为差分隐私。
- PATE-GAN: 将修改后的PATE框架应用于GAN。
- GANobfuscator:使用精确设计的梯度剪枝策略,实现高质量的合成数据生成。
当前研究的不足:
出于隐私,集中式训练困难。
联邦学习差异隐私解决方案:
[15] Robin C Geyer, Tassilo Klein, and Moin Nabi, “Differentially private federated learning: A client level perspective,” arXiv preprint arXiv:1712.07557, 2017.
MD-GAN: 优化GAN模型分布式训练:
[17] Corentin Hardy, Erwan Le Merrer, and Bruno Sericola, “Md-gan: Multi-discriminator generative adversarial networks for distributed datasets,” in 2019 IEEE International Parallel and Distributed Processing Symposium (IPDPS). IEEE, 2019, pp. 866–877.
本文贡献:提出GAN私有联邦学习(FL-GAN)
2.PRIVATE FEDERATED LEARNING OF GAN
2.1. Algorithm summary
现有研究:对模型最终参数添加噪声
本文:在训练过程中添加噪声。使用 moments accountant 实时记录训练中的隐私损失。
合成数据生成模型:梯度惩罚的WGAN
分布式存储数据训练模型:并行训练(parallel training);连环训练(serial training)
2.2. Algorithm framework
parallel training 核心思想:平均客户端的参数更新,完成每轮更新。
缺点: 频繁访问数据,增加隐私泄露风险;访问所有客户端后更新模型,对数据使用的浪费。
本文: 每个客户端依次更新同一模型参数。
2.3. The model learning procedure
在训练过程中添加噪声以满足差分隐私。
- 服务器初始化模型,包括鉴别器和生成器,将模型发送给任意客户端 i i i
- 客户端 i i i 训练 T g T_g Tg 轮,每轮训练中,鉴别器训练 T d T_d Td 轮后 合成器进行更新。
- 从余下客户端随机选一个,执行步骤 2 ,直到所有客户端都训练完,将最终模型返回服务器。
2.4. Theoretical analysis
私有FL-GAN建立在梯度惩罚的WGAN框架上,通过在更新鉴别器时加入噪声来实现差分隐私。
在计算每个训练数据的鉴别梯度后,加入高斯噪声(Alg.1 lines 10,11)。
使用隐私会计来跟踪训练中的隐私损失。a privacy accountant
Differential Privacy
随机函数 M M M 给出 ( ϵ , δ ) − d i f f e r e n t i a l p r i v a c y (\epsilon,\delta)-differential\quad privacy (ϵ,δ)−differentialprivacy,单条记录上所有不同的数据集 D 1 , D 2 D_1,D_2 D1,D2,所有 S ⊆ R a n g e ( M ) S\subseteq Range(M) S⊆Range(M)。 ϵ \epsilon ϵ 为隐私预算控制保护程度和噪音水平。
Parallel Composition
不相交子集 x i ⊆ x x_i\subseteq x xi⊆x, 设 f ( x i ) f(x_i) f(xi) 满足 ϵ \epsilon ϵ-差分隐私,应用所有查询 f ( x i ) f(x_i) f(xi) 仍然满足 ϵ \epsilon ϵ-差分隐私。
Lemma 1.
抽样概率: q = m M q=\frac{m}{M} q=Mm
每个内循环中鉴别器迭代次数: T d T_d Td
隐私侵犯: δ \delta δ
对于正的 ϵ \epsilon ϵ: 鉴别器的参数对于 ( ϵ , δ ) (\epsilon,\delta) (ϵ,δ)-差分隐私 外部循环中使用的所有数据 满足:
算法1中的生成器输出保证了 ( ϵ , δ ) (\epsilon,\delta) (ϵ,δ)-差分隐私
proof:
根据Lemma 1. 每个客户端训练的鉴别器都满足差分隐私,在差分隐私的 后处理 (post-processing)属性 作用下,生成器也满足差分隐私。
由于并行理论(Parallel Theory),模型在客户端之间传递也不会增加其他客户端隐私泄露风险。
故 每一轮客户端训练中推导出的模型都是 ( ϵ , δ ) (\epsilon,\delta) (ϵ,δ)-差分私有
算法复杂度:
客户端每次通信 参数仅需在客户端之间传递一次。
FL-GAN 总通信复杂度: N ⋅ ( ∣ w ∣ + ∣ θ ∣ ) N\cdot(\lvert \mathcal w\rvert+\lvert \theta\rvert) N⋅(∣w∣+∣θ∣)
对于 DP-FL 方案,生成器一次迭代需要传递 T d T_d Td 次参数,总通信复杂度 T g ⋅ T d ⋅ N ⋅ ( ∣ w ∣ + ∣ θ ∣ ) T_g\cdot T_d \cdot N\cdot(\lvert \mathcal w\rvert+\lvert \theta\rvert) Tg⋅Td⋅N⋅(∣w∣+∣θ∣)
3. EXPERIMENTS
探索隐私水平和生成的数据质量之间的关系
MNIST: 70k 大小为 28 × 28 28\times28 28×28 的手写数字图像
CelebA: 200k 大小为 64 × 64 64\times64 64×64 的名人脸部图像
鉴别器 α d \alpha_d αd 和生成器 α g \alpha_g αg 的学习速率 1.0 × 1 0 − 4 1.0\times 10^{-4} 1.0×10−4 ,指数衰减。
batch size:64
每个客户端保留一定数量的数据用于训练:
MNIST: 分割为 N 1 ∈ [ 1 , 3 , 6 ] N_1\in[1,3,6] N1∈[1,3,6],模拟 N 1 N_1 N1 个不同的数据持有者。
CelebA: 分割为 N 2 ∈ [ 1 , 10 , 20 ] N_2\in[1,10,20] N2∈[1,10,20]
噪声尺度: δ = 1 0 − 5 \delta=10^{-5} δ=10−5
鉴别器迭代次数: T d = 5 T_d=5 Td=5
在鉴别器网络上的激活函数为泄露ReLU(leaky ReLU)
导数的界 B δ ′ ≤ 1 B_{\delta^{'}}\le 1 Bδ′≤1
隐私级别对图像质量的影响
通过设置不同的隐私参数 ϵ \epsilon ϵ 进行训练,得到了几个隐私保护级别的模型。
隐私水平较高时,可以生成较清晰的图像,较大的隐私参数对应高质量图像,表明:图像失真由噪声引起,而不是质量较差的训练集。
大的隐私参数意味着大的隐私泄露风险,也意味着更好的生成数据,需要在隐私和性能之间权衡。
对比FL-GAN 和 DP-FL:
计算合成数据的 Inception Score (IS)。
有三种不同的客户端数量。
Inception Score (IS)得分越高,生成图像质量越高,多样性越大,当隐私参数到一定阈值,合成图像的质量可以与无隐私保护的FL-GAN媲美。
使用Frechet Inception Distance (FID)评估生成的数据,低分代表合成数据的高质量。
隐私水平和网络收敛之间的关系
带有梯度惩罚的WGAN 对每个样本独立施加梯度惩罚,Lipschitz极限要求鉴别器的梯度不超过K(通常设置为1)。
梯度惩罚就是设置一个额外的损失项将梯度与K关联起来,参数K与差分隐私敏感性完美匹配。
给梯度添加噪声前,对其剪辑,使梯度有一个清晰的灵敏度上界,将裁剪值设为K,避免梯度消失和爆炸,保证梯度有界性,便于高斯噪声加入。
从图6看出,仍然可以快速收敛
4. CONCLUSION
FL-GAN可以生成高质量的合成数据,并行训练最大限度利用各个数据库的数据。
【FL-GAN】Private FL-GAN: Differential Privacy Synthetic Data Generation Based on Federated Learning相关推荐
- 【教程搬运】最好的GAN系列教程在这里。
[教程搬运]最好的GAN系列教程在这里. 1.初窥门径__生成对抗网络(GAN)(一) *GAN的基础知识 注意这个文章有个地方写的不够清楚,就是生成器和判别器训练的过程,我稍微阐述一下,就是: 第一 ...
- 【CVPR 2020】蒸馏篇(四):Online Knowledge Distillation via Collaborative Learning
[CVPR 2020]蒸馏篇(四):Online Knowledge Distillation via Collaborative Learning 论文地址: 代码地址: 主要问题: 主要思路: 具 ...
- 【翻译论文】 Supervised Parametric Classification of Aerial LiDAR Data(2004)
[翻译论文] Supervised Parametric Classification of Aerial LiDAR Data 航空激光雷达数据的监督参数分类 Amin P. Charaniya, ...
- 【分享预告】细数GAN和图像分类的前世今生
这是本周的分享预告,一起来细数图像分类与GAN的前世今生. 更多,欢迎到知乎专栏去投稿与交流,配套资料将放出在github,可扫描二维码进入. 打一个小广告,我的计算机视觉公开课<AI 图像识别 ...
- 【论文阅读】2021年牛津大学的 Survey:Recent Advances in Reinforcement Learning in Finance
1 本文概述 本文是牛津大学2021年对 深度强化学习在金融领域内各种决策的应用 的综述文章.文章分为四个部分,第一部分是整体介绍:第二部分详细介绍了强化学习的基础知识,包括马尔科夫决策过程的定义.基 ...
- 【论文翻译】Transferring GANs: generating images from limited data
论文下载 论文目录 Abstract. 1 Introduction 2 Related Work 3 Generative Adversarial Networks 3.1 Loss functio ...
- 【AAAI 2021】在线知识蒸馏中的对等协同学习:Peer Collaborative Learning for Online Knowledge Distillation
[AAAI 2021]在线知识蒸馏中的协同学习:Peer Collaborative Learning for Online Knowledge Distillation 论文地址: 主要问题: 主要 ...
- 【百战GAN】如何使用GAN拯救你的低分辨率老照片
大家好,欢迎来到专栏<百战GAN>,在这个专栏里,我们会进行算法的核心思想讲解,代码的详解,模型的训练和测试等内容. 作者&编辑 | 言有三 本文资源与生成结果展示 本文篇幅:52 ...
- 【深度学习】遗传算法优化GAN
作者 | Victor Sim 编译 | VK 来源 | Towards Data Science GANs是计算量最大的模型之一,因为它相当于同时训练两个神经网络.对于我那台糟糕的便携式计算机来说, ...
最新文章
- 【统计学习】统计学习方法概论
- boost::iostreams::filtering_ostream用法的测试程序
- 金古桥机器人_《泽塔奥特曼》奥特曼憋屈了,被机器人保护,金古桥可能才是主角...
- 前端学习(1879)vue之电商管理系统电商系统之通过axios拦截器添加token认证
- Serverless在游戏运营行业进行数据采集分析的最佳实践
- 免费使用3天!52CV GPU云大促,疫情期间做深度学习的首选!
- 戴尔服务器t系列和r系列,满足VR需求 戴尔升级T/R系列塔式工作站
- Git 在 Linux 上和 windows 上的安装
- sqlserve 热备用状态更新_什么是核心交换机的链路聚合、冗余、堆叠、热备份
- 苹果手表出现,请在iphone 打开apple watch 应用,前生Passcode,轻点密码重试
- 网页设计专家票选的16款常用英文字体
- 微信个人号API开发
- 【网络重置】WLAN消失/网络适配器黄色感叹号/无法识别无线网卡/解决方法汇总/Win10家庭版(个人留档)
- 华滋先生:互联网创业,加入社群是有用的吗?
- wxpython 优秀的界面_WxPython实现无边框界面
- 归纳法与面向对象思维
- Bitcherry BCHC:阿里收购考拉成跨境电商一哥 仍面平台临信任问题
- [工业互联-1]:工业互联全局概述
- c语言驱动显卡,佳能 Tesla C2050 驱动程序下载-更新佳能软件(显卡)
- [原创] RT7 Lite win7旗舰版精简方案