开放隐私计算

以下文章来源于隐私计算研习社 ,作者董业

隐私计算研习社.

开放隐私计算社区

本文总结面向横向联邦学习的主要安全聚合技术路线和经典方法,对各条技术路线所处理的问题和经典方法的核心思想做一些梳理,并提出一点个人浅见。不当之处,还请指教海涵。

1

横向联邦学习

联邦学习(Federated Learning, FL)是从机器学习角度出发,试图解决数据隐私保护、数据孤岛的一种分布式机器学习架构。其核心架构和分布式机器学习类似:客户端具有数据,在本地训练模型;通过参数服务器进行梯度(或者模型参数)的聚合(例如加法聚合);最终客户端下载聚合结果在本地更新模型。

然而,和分布式机器学习相比,FL主要有以下不同:

1. 分布式机器学习主要关注并行计算、快速训练,而FL更多考虑在数据隐私安全等问题前提下的效率提升;

2. 分布式机器学习下可以集中化处理数据,进而分发数据进行分布式训练;但是在FL中,由于现实场景、法律法规等原因,FL中的数据分布更加不均衡,数据处理受到隐私保护的限制也更加复杂,从而使得FL的模型训练优化更具有挑战性;

3. 分布式机器学习下计算节点比较稳定,大多在局域网内进行;FL下设备更加多样,并且难控制,面向广域网下的FL更加常见,因此FL的计算和通信资源更加受限。目前FL的场景业内公认的分类是cross-silo 和 cross-device,前者基本不需要考虑设备不稳定问题,而后者则需要认真考虑终端设备资源受限的影响。

本文针对明文横向联邦学习(Horizontal Federated Learning,HFL)下存在隐私泄露的问题,主要梳理面向隐私保护的安全聚合方案,并略微涉及到的其他方面的问题(例如鲁棒性)。

2

成对加性掩码路线

Google在CCS'17提出的基于成对加性掩码的安全聚合方案是经典方案之一,该方案基于客户端之间协商的成对加性掩码,在安全聚合中利用加法或者减法茫化真实输入。而成对加减掩码在最终的加法聚合中可以成对抵消,从而实现了安全聚合。然而,该方案主要面向cross-device问题,因此需要补充额外的技术处理设备掉线带来的影响:

1. 为了解决设备掉线带来的正确性问题,该方案额外引入了Shamir's 秘密分享技术将茫化种子安全分享到所有用户,从而所有用户构成一个全连接图。以便在线客户端恢复掉线客户端种子并将其茫化作用抵消;

2. 为了解决设备资源受限带来的隐私泄露问题,该方案引入了双盲(double-masking)技术。

该方案的具体过程和分析可以参考文末给出的链接[1]。

然而,该方法也存在着很大的性能问题,尤其是大规模的使用Shamir's 秘密分享带来的计算和通信开销。为了进一步优化性能,CCS'20将每一个客户端的邻居节点限制在O(logN)以提升性能,并分析了在该情况下的隐私性等问题。该论文的详细解读可以参考文末链接[2]。

除此之外,还有许多工作在CCS'17的方案上继续展开,例如为了抵抗恶意服务器,VerifyNet 进一步引入了双线性技术等。

浅见

基于成对加性掩码的安全聚合技术更适合轻量级客户端的安全聚合,只需要一个服务器,而且允许部分客户端和服务器合谋,安全性好。不过,该方案需要客户端-服务器之间多轮通信,而且只支持加法聚合。

3

同态加密路线

将同态加密技术应用到FL中以保证梯度(或权重)的隐私最早是在Phong等人在TIFS‘17提出[3]。

利用同态加密的加同态性质可以很直接的实现密文下的梯度加法聚合。然而,同态加密巨大的计算开销是制约其发展的重要瓶颈。而且密文膨胀也会带来巨大的通信负载。为了提供足够的计算资源,基于同态的方案一般面向cross-silo场景。

为了提升TIFS'17的方案效率,USENIX ATC'20上Zhang等人发表的[4]将量化技术和同态加密结合,从而提升同态密文批处理编码梯度的效率,进而减少加密等操作的次数和密文数量,从而提升系统性能。该方案的阅读笔记可以参考文末链接[5]。

浅见:

基于同态加密的安全聚合技术目前受计算限制比较大,但是方案构造简单友好。不过目前该技术思路下的聚合方案还是大多面向加法聚合,并且该方案下客户端不能和服务器合谋。虽然目前也有多密钥同态方案可以借鉴,但是性能会更受限制。

4

秘密分享路线

基于秘密分享的方案令客户端将梯度或权重以秘密分享的形式传送到多个不完全合谋的服务器上,多个服务器之间利用安全多方计算方案实现安全聚合。

和之前的技术路线相比:

1. 该技术路线理论上可以支持任意聚合函数的计算;

2. 另一个不同则是本技术路线需要多个满足合谋限制的服务器,这可能会给实用带来限制。不过,本路线也允许部分客户端和部分服务器合谋;

3. 从性能上看,基于秘密分享的方案计算轻量级(尤其是客户端计算),而且通信轮数少,架构简单。不过客户端-服务器通信量与服务器数量成正比。

最早提出该方案雏形的是[6],之后我们做了一系列微小改进工作,相关的论文可以参考[7][8][9]。其中,前两项还是针对加法聚合的改进优化,第三项工作我们则面向针对鲁棒性聚合方案实现了隐私保护安全聚合改造。

浅见:

基于秘密分享的安全聚合能够得到较好的整体性能,方案结构简单,但是在面对复杂聚合函数的时候开销还是很大。主要研究点除了减少客户端-服务器开销,如果在服务器端需要多方交互计算,还需要优化服务器端的计算通信。

5

展望

上述梳理了一些面向横向FL的安全聚合技术方案,不同的方案各有优劣。然而,对于FL和安全聚合,我们也需要认识到:

1. 虽然每次聚合能够保护客户端的私有输入,但是聚合结果还是要公开给用户。结果的公开对于隐私的泄露是多少需要注意,之前一些研究也在探究FL中聚合结果造成的隐私泄露;

2. 除此了横向FL,面向纵向FL的安全聚合研究还比较少,虽然也有一些技术试图解决这个问题,例如PrivColl,但是性能通信等需要进一步的提升探索;

3. FL在分布式的场景下,更容易受到计算节点的恶意攻击。面向恶意攻击的高效安全聚合方案也是迫切需要的。

6

参考链接与文献

[1] https://zhuanlan.zhihu.com/p/83786131

[2] https://zhuanlan.zhihu.com/p/403179338

[3] Phong, L.T., Aono, Y., Hayashi, T., Wang, L., & Moriai, S. (2018). Privacy-Preserving Deep Learning via Additively Homomorphic Encryption. IEEE Transactions on Information Forensics and Security, 13, 1333-1345.

[4] Zhang, C., Li, S., Xia, J., Wang, W., Yan, F., & Liu, Y. (2020). BatchCrypt: Efficient Homomorphic Encryption for Cross-Silo Federated Learning. USENIX Annual Technical Conference.

[5] https://zhuanlan.zhihu.com/p/326712188

[6] Corrigan-Gibbs, H., & Boneh, D. (2017). Prio: Private, Robust, and Scalable Computation of Aggregate Statistics. Symposium on Networked Systems Design and Implementation.
[7] https://link.springer.com/chapter/10.1007/978-3-030-41579-2_40

[8] https://www.sciencedirect.com/science/article/pii/S0167404820300985

[9] https://eprint.iacr.org/2021/993

译者简介:董业,本科毕业于山东大学计算机科学与技术专业,目前在中国科学院信息工程研究所攻读博士学位。主要研究兴趣包括隐私保护、安全多方计算、同态加密和机器学习。知乎:酸菜鱼。

END

往期推荐:

隐私计算头条周刊(11.20-11.26)

安全多方学习开源框架调研

原语科技宣布完成千万级天使+轮融资,致力于打造隐私计算标准化产品

好书分享丨区块链的骨骼——密码技术

开放隐私计算社区征稿啦!

热门文章:

姚期智院士:数据、算法、算力为何是数字经济核心技术?

隐私计算又遇技术突破,亿级数据密态分析可在10分钟内完成

清华大学张超:实现数据确权与保护,数据密态渐成行业共识

数据确权:第五要素的战争

未来十年,将会有95%的企业采用隐私计算技术

横向联邦学习下隐私保护安全聚合:问题,方法,与展望相关推荐

  1. 虚拟专题:联邦学习 | 面向隐私保护的非聚合式数据共享综述

    来源:通信学报 面向隐私保护的非聚合式数据共享综述 李尤慧子1, 殷昱煜1, 高洪皓2,3, 金一4, 王新珩5 1 杭州电子科技大学计算机学院,浙江 杭州 310018 2 上海大学计算机工程与科学 ...

  2. 【问答集锦】联邦学习让隐私保护和海量数据学习兼得!

    2020腾讯广告算法大赛专题直播周是由腾讯广告打造的一档大咖直播活动,特邀2020腾讯广告算法大赛的专家评委,针对联邦学习.机器学习.大数据等前沿领域的核心话题进行分享,并为算法爱好者们答疑解惑.我们 ...

  3. 横向联邦学习-梯度安全聚合(二)

    一 背景 最近总结自己的公众号的时候,发现一个问题:对于联邦学习的文章,基本都是在讲述纵向联邦学习,对于横向联邦学习的技术涉及较少,所以心血来潮之下,决定写几篇文章来压压箱子底. ❝ 横向联邦:现代移 ...

  4. 横向联邦学习-梯度安全聚合1

    一 背景 最近总结自己的公众号的时候,发现一个问题:对于联邦学习的文章,基本都是在讲述纵向联邦学习,对于横向联邦学习的技术涉及较少,所以心血来潮之下,决定写几篇文章来压压箱子底. ❝ 横向联邦:现代移 ...

  5. 横向联邦学习-梯度安全聚合

    一 背景 最近总结自己的公众号的时候,发现一个问题:对于联邦学习的文章,基本都是在讲述纵向联邦学习,对于横向联邦学习的技术涉及较少,所以心血来潮之下,决定写几篇文章来压压箱子底. ❝ 横向联邦:现代移 ...

  6. 隐私计算 2.9 秘密共享应用于横向联邦学习

    1 简介 1.1 横向联邦学习 横向联邦学习也称为按样本划分的联邦学习,主要应用于各个参与方的数据集有相同的特征空间和不同的样本空间的场景,例如两个地区的城市商业银行可能在各自的地区拥有非常不同的客户 ...

  7. 【迁移学习】隐私保护下的迁移算法

    作者:李新春 -------- 计算机软件新技术国家重点实验室 伪文艺程序员 既可提刀立码,行遍天下 又可调参炼丹,卧于隆中 本文概要 本文介绍一种特殊场景下的迁移算法:隐私保护下的迁移算法.首先,本 ...

  8. 笔记︱联邦学习与隐私计算的案例集锦(一)

    文章目录 1 联邦学习与隐私计算 1.0 联邦学习背景 1.1 横向联邦学习(HorizontalFederatedLearning,HFL) 1.2 纵向联邦学习(VerticalFederated ...

  9. 【机器学习】横向联邦学习纵向联邦学习区别

    文章目录 背景简介 横向联邦学习 纵向联邦学习 参考 背景简介 现实生活中,除了少数巨头公司能够满足,绝大多数企业都存在数据量少,数据质量差的问题,不足以支撑人工智能技术的实现:同时国内外监管环境也在 ...

最新文章

  1. python re模块_Python re模块
  2. mega_[MEGA DEAL] Android课程的Java基础知识(61%折扣)
  3. 谷歌大脑科学家亲解 LSTM:一个关于“遗忘”与“记忆”的故事 本文作者:奕欣 2017-01-14 09:46 导语:AI科技评论保证这是相对通俗易懂的一篇入门介绍了,看不懂的话欢迎关注「AI 科技
  4. start.s中的.balignl 16,0xdeadbeef
  5. 成不了天才,但为何也没成人材?(转)
  6. [转]RxHttp 一条链发送请求,新一代Http请求神器(一)
  7. 把ipa文件上传到服务器,windows电脑上传ipa到appstore的详细流程
  8. JS node 后端签名前端文件直传ali-oss解决方案
  9. 乐鑫esp8266的串口通讯驱动源文件,nonos和rtos版本
  10. jupyter-notebook设置⽀持远程访问
  11. 使用PHP连接POSTGRES数据库
  12. 编译libxcb时报错:No package 'xcb-proto' found
  13. pandas.DataFrame.sample随机抽样
  14. 文件生成BASE64,base64转文件
  15. 如何成为一名Java初级程序员
  16. Shell /dev/null 文件的含义
  17. H3C华三路由器nat避免生成null 0路由并解决nat需求
  18. android 阻尼动画,Android阻尼效果 | 自定义进阶之实现MIUI的拖动视差效果
  19. oracle认证考试试题及答案,oracle考试试题_oracle认证考试模拟题_oracle试题及答案房地产估价师考试试题_房地产...
  20. 人工智能学习笔记:基本遗传算法及其改进算法

热门文章

  1. 安徽泾县:如诗似画的桃花潭
  2. [零基础易语言教程]1-1 什么是易语言
  3. 189.HBase(三):master架构,RegionServer架构,写流程,写缓存的刷写,HFile,读流程,合并读取的数据,store文件合并,region分区
  4. 使用ANTLR和Go实现DSL入门
  5. CNS可增值积分区块链应用剖析如何区分真伪区块链
  6. MySQL进阶:sql性能分析
  7. 如何安装Win10与Ubuntu16.04.5LTS
  8. 0091-【Python系统】-Python 资源大全中文版
  9. linux系统与Windows7系统之间文件的兼容性问题
  10. Python秀操作 自动更换电脑壁纸