导语 | 大数据及人工智能飞速发展的今天,法律法规和信任问题严重阻碍了企业之间的数据流通,数据孤岛问题像一只无形的手挡在了企业之间,因为缺乏有价值的数据合作,各行业用户获取成本居高不下。为了满足企业间数据安全共享、释放数据价值,助力业务创新,腾讯“神盾-联邦计算”平台应运而生!

面向数据安全与隐私保护的多方计算技术研究最早可追溯到上世纪70年代,而新兴的联邦学习概念在国内从2019年开始蓬勃发展。

“神盾-联邦计算”平台的成型也正是这个时期,经过2-3个月系统评测、安全算法评测及现场答辩,2019年12月“神盾-联邦计算”代表腾讯获得了信通院颁发的基于多方安全计算的数据流通产品证书,全国首批获得该证书的团队只有5家。目前神盾正在主导信通院联邦学习标准制定。

腾讯“神盾-联邦计算”平台应运而生

大数据及人工智能飞速发展的今天,法律法规和信任问题严重阻碍了企业之间的数据流通,数据孤岛问题像一只无形的手挡在了企业之间,因为缺乏有价值的数据合作,各行业用户获取成本居高不下,银行信用卡不良用户占比全面上升,金融信贷审核成本陡增,AI发展也遭遇前所未有的瓶颈,为了让这些企业在合法合规、安全、高效无损的基础上进行数据合作,腾讯“神盾-联邦计算”平台应运而生!

这是一个主要基于联邦学习、多方安全计算(MPC)、区块链、可信计算等安全技术的分布式计算平台,产品针对机器学习算法进行定制化的隐私保护改造,保证数据不出本地即可完成联合建模,最大化各个合作企业的数据价值:

根据合作双方的实际场景需求,其上层可以覆盖风控、营销、推荐、AI等主流业务,同时“神盾-联邦计算”也将扮演业务与数据之间桥梁的角色,撮合有数据需求的业务方和有价值变现的数据方之间展开合作。

产品首先在联合建模的数据格式规范、安全求交、特征工程、算法参数调试等细节进行了细致的打磨,然后在处于联邦底层核心地位的数据安全与隐私保护技术相关领域做了深入的基础研究,取得了多项突破性的成就,处于行业领先地位。

这其中包含非对称联邦概念的首创及落地、安全信息检索方案的首创及落地 ,涵盖同态加密、不经意传输、隐私集合求交在内的多项MPC技术的创新及应用、主流联邦学习协议的效率优化、精度提升及可信中间方的剥离改造、单向联邦网络策略的推进等,下面将简要介绍其中几项重要突破。

首创非对称联邦学习框架

在纵向联邦学习的标准流程中,两个跨特征的参与方需要执行以下两个操作:

1. ID对齐

主要依托隐私求交 [2,3] (Private Set Interp, PSI) 技术 ,在各参与方处输出所有输入的样本ID集合的交集。

2. 加密模型训练

各参与方以前文提到的输出交集为基础,计算、通信基于原始数据集计算的加密中间变量。

在前沿的联邦学习圈,大量的研究工作投入到加密模型训练中,包括新联邦协议的设计[4]、联邦通信机制的优化[5, 6]、联邦激励系统的设计[7],却鲜有对 ID对齐的系统性研究。

实际的纵向联邦学习的场景中,我们发现,往往其中一方的ID集合较少,并且具有较强的业务属性,是ID拥有方希望保护的信息。但是ID较少的参与方却不得不在ID对齐操作中暴露出这些ID,显得较为“弱势”。

例如,联盟中的信贷公司为了实现风控预测,需要将其客户的违约记录输入联邦学习系统中,而每一条这种违约记录的获取都是该类公司以巨额的经济损失作为交换,属于最高等级的商业机密。

为了解决这个问题,将ID、特征、标签三要素的全方位隐私保护放在产品第一要位,彻底解除高敏感领域的数据安全担忧,我们在联邦学习领域首创非对称联邦学习概念,首度发明Asymmetrical-PSI、Genuine-with-Dummy等技术,支撑起一条完整的非对称加密实体对齐 + 非对称加密特征工程 + 非对称加密模型训练联邦学习数据链路。我们将在FL-IJCAI20国际会议上展示部分相关工作[8]。

首创面向联邦成果分享的安全信息检索技术

非对称联邦解决了训练过程中样本ID泄漏的问题,但在生产线上查询环节依然会因查询行为泄漏用户清单。若通过返回全量预测分数来保护查询方用户清单,则不便于按量计费,商业上存在障碍。

神盾联邦计算平台深度结合业务场景和需求,首创面向联邦成果分享的安全信息检索技术,解决联邦学习应用的重要隐私性问题,做到样本预处理-数据挖掘-联邦推理-联邦成果安全分享的完整、新型安全信息流。安全信息检索技术解决了联邦学习工程实践中的多方成果共享问题,填补联邦学习系统运行的最后一块短板。

安全信息检索协议基于Pohlig-Hellman交换加密技术和MPC中的不经意传输 (Oblivious Transfer) 技术,强有力保障联邦成果发送方精准分享目标客户群推理结果,全方位保护联邦成果接收方的目标客户群隐私。神盾联邦计算平台已凭借该项成果递交多项国家专利申请。

首创地位对等的分布式安全聚合技术

在一个联邦学习系统中,数据隐私的保护依赖于其内部的各种安全子协议,例如对加法、乘法、聚合等操作的联邦子协议[13, 14]。其中,聚合技术能够在保护各参与方数据隐私的前提下,完成对分布在各方的模型更新所需参数(如梯度、残差等)、模型估计(如权重)和模型预测值等中间变量的中心化。

安全求和 (Secure Summation) 协议是聚合协议最为直观的实现之一,也是众多安全聚合技术的基准测试方案之一。

目前在学业界广泛流行的安全求和实现方案包括高效安全求和协议[15]、同态加密[10, 11]、秘密分享[16]、面向隐私保护的共识协议[17, 18]等,但在联邦协议的应用中,这些已有协议存在各种问题,包括共谋的威胁[15]、计算复杂较高[10,11,18]、精度损失[17]、完全去中心化 (full decentralization) 问题[10, 11]、动态环境问题[19]等。

遗憾的是,几乎没有求和协议针对联邦学习的这类要求做深入研究。我们首创面向隐私保护的演化式求和协议[12],以完全去中心化的结构,于无限时间内,在参与方设备频繁登入、登出的动态环境中,执行安全性好、准确率高、恢复力强的安全求和服务,作为联邦学习系统中的可靠子程序,适用于联邦学习协议中的各类安全聚合需求。在2020年4月,我们的该项成果发表在IEEE Intelligent Systems期刊上。

首创单向联邦网络策略

市面主流联邦学习产品及开源框架,均需要建模双方的网络双向互通,但这在银行等数据安全极度敏感的行业会引来网络安全担忧,如果开放了外界访问银行内部网络的入口,黑客就有可能通过扫描开放端口,伪造数据包来源IP等手段发起恶意攻击。

因此,如果能够只开放出口权限而不开放入口权限,则能让数据和网络环境的安全性大大增强。基于此特性,银行、互金等敏感行业可以通过动态出口IP,动态端口映射等手段让黑客无从下手,保护网络及数据安全。同时,也让数据合作容易通过合规审查,合作更容易开展。

腾讯“神盾-联邦计算”平台首创联邦单向网络架构,合作双方中对安全更为敏感的一方可以使用单向模式,即只开放网络出口权限而不开放入口权限。神盾提供的单向联通架构经测试,对运行效果和性能无任何影响,同时能够大大提高数据安全性。

腾讯神盾携手PowerFL、FATE

PowerFL是腾讯TEG出品的无需可信第三方的联邦学习平台,在开源的智能学习平台Angel之上构建,其中包括但不仅限于纵向联邦学习的系统框架和各类算法,神盾和PowerFL是腾讯“联邦学习”开源协同Oteam的合作伙伴,一开始就在在基础框架、联邦算法、应用研究等不同方向进行合作研究。

作为联邦学习全球首个工业级开源项目,FATE在同一时期也很快就进入神盾团队的视野,经过大半年在联邦技术和应用上的合作探讨,双方在2019年9月成立联合项目组,基于联邦学习进行了一系列的产品共同研发和迭代优化,在技术研究及行业应用标准方面双方也开展了深度合作,使得隐私保护下的数据合作不再困难。

基于同PowerFL、FATE的共同研究,神盾重新设计基于联邦学习、MPC及区块链等技术的联邦产品架构并沉下心来打磨细节。在现在的腾讯“神盾-联邦计算”上,一个略懂算法的新手用户不需要编写任何脚本,也可以通过简单设置轻松完成整个联邦建模过程。

除此之外,前文提到的众多神盾高价值工作还同时贡献到FATE开源社区,团队核心成员也在2019年成为FATE开源社区首位一级贡献者。

腾讯神盾引入重量级数据合作伙伴TalkingData

神盾首先承载了一个联邦计算平台的使命,它能满足有数据合作需求的企业之间安全地完成联合建模,但是大家都知道有价值的数据才是这一切的关键,银行有优质用户样本及资金流数据特征,游戏发行商有优质玩家的样本,线上教育机构有分类教育用户样本及特征,互联网巨头有巨量用户行为特征,怎样撮合这些企业进行有价值的数据合作成了神盾的又一个使命。

简单来说就是在神盾这个平台上任何数据需求方都能快速地找到高价值的合作伙伴,而任何进行数据合作的企业都能通过神盾-联邦计算平台完成安全的数据合作

TalkingData是中国领先的数据智能服务商,产品负责人闫辉跟腾讯大数据团队有不解的渊源,在精准营销、EMR、ES、统计分析、BI精细化运营、企业画像等多个产品上都有深入的探讨和合作,当然联邦学习这个大数据前沿领域也不例外。

双方一致认同联邦学习的价值,于2020年初达成战略合作伙伴关系,TalkingData愿和腾讯“神盾-联邦计算”一起为客户提供丰富、安全、多维度的联邦数据服务。

这些都只是一个开始,腾讯“神盾-联邦计算”团队任重道远,在其愿景“让企业之间的数据合作不再困难!”上还有很远的路要走,但为了给各行各业带来更好的数据合作环境、为了给企业带来更高的市场增长空间、为了给用户更好的服务,团队将不畏艰险勇往直前。

参考文献

[1] Yang, Qiang, et al. "Federated machine learning: Concept and applications." ACM Transactions on Intelligent Systems and Technology (TIST) 10.2 (2019): 1-19.

[2] Pohlig, Stephen, and Martin Hellman. "An improved algorithm for computing logarithms over GF (p) and its cryptographic significance (Corresp.)." IEEE Transactions on Information Theory 24.1 (1978): 106-110.

[3] De Cristofaro, Emiliano, and Gene Tsudik. "Practical private set interp protocols with linear complexity." International Conference on Financial Cryptography and Data Security. Springer, Berlin, Heidelberg, 2010.

[4] Cheng, Kewei, et al. "Secureboost: A lossless federated learning framework." arXiv preprint arXiv:1901.08755 (2019).

[5] Liu, Yang, et al. "A Communication Efficient Vertical Federated Learning Framework." arXiv preprint arXiv:1912.11187 (2019).

[6] Zhuo, Hankz Hankui, et al. "Federated reinforcement learning." arXiv preprint arXiv:1901.08277 (2019).

[7] Wang, Tengyun, et al. "A revenue-maximizing bidding strategy for demand-side platforms." IEEE Access 7 (2019): 68692-68706.

[8] Liu, Yang, Xiong Zhang, and Libin Wang. "Asymmetrically Vertical Federated Learning." arXiv preprint arXiv:2004.07427(2020).

[9] Rivest, Ronald L., Len Adleman, and Michael L. Dertouzos. "On data banks and privacy homomorphisms." Foundations of secure computation 4.11 (1978): 169-180.

[10] Paillier, Pascal. "Public-key cryptosystems based on composite degree residuosity classes." International conference on the theory and applications of cryptographic techniques. Springer, Berlin, Heidelberg, 1999.

[11] Gentry, Craig. "Fully homomorphic encryption using ideal lattices." Proceedings of the forty-first annual ACM symposium on Theory of computing. 2009.

[12] Liu, Yang, et al. "Distributed Privacy Preserving Iterative Summation Protocols." arXiv preprint arXiv:2004.06348(2020).

[13] Bonawitz, Keith, et al. "Practical secure aggregation for privacy-preserving machine learning." Proceedings of the 2017 ACM SIGSAC Conference on Computer and Communications Security. 2017.

[14] McMahan, H. Brendan, et al. "Federated learning of deep networks using model averaging." (2016).

[15] Clifton, Chris, et al. "Tools for privacy preserving distributed data mining." ACM Sigkdd Explorations Newsletter 4.2 (2002): 28-34.

[16] Damgård, Ivan, et al. "Multiparty computation from somewhat homomorphic encryption." Annual Cryptology Conference. Springer, Berlin, Heidelberg, 2012.

[17] Mo, Yilin, and Richard M. Murray. "Privacy preserving average consensus." IEEE Transactions on Automatic Control 62.2 (2016): 753-765.

[18] Ruan, Minghao, Huan Gao, and Yongqiang Wang. "Secure and privacy-preserving consensus." IEEE Transactions on Automatic Control 64.10 (2019): 4035-4049.

[19] Wang, Jianyu, and Gauri Joshi. "Adaptive communication strategies to achieve the best error-runtime trade-off in local-update SGD." arXiv preprint arXiv:1810.08313 (2018).

文章推荐

区块链不好落地?腾讯云用区块链做了这些事

腾讯“神盾-联邦计算”平台带你翻越数据合作的重重大山相关推荐

  1. 打破数据孤岛释放数据价值,腾讯联合安全计算平台重磅出炉

    如何打通生产中存在的数据孤岛,让数据安全有效的协作,释放数据价值,成为所有大数据行业参与者不断探索和思考的问题.9月11日,在2020腾讯全球数字生态大会大数据专场上,腾讯云AI平台总监陶阳宇透露,腾 ...

  2. 腾讯Oceanus实时计算平台架构设计

    腾讯Oceanus实时计算平台架构设计-学习总结 一.背景 实时计算应用主要分为以下四类: (1)ETL:ETL应该是目前实时计算最普遍的应用场景.例如在TDBank的数据链路中,TDSort读取消息 ...

  3. 腾讯 AngelFL 联邦学习平台揭秘

    作者:AI前线 数据里蕴含着价值.在人工智能时代,机器学习尤其深度学习模型的获得需要大量的训练数据作为前提.但是在很多业务场景中,模型的训练数据往往分散在各个不同的业务团队.部门.甚至是不同的公司内的 ...

  4. 腾讯Oceanus实时计算平台架构设计---学习总结

    一.背景 实时计算应用主要分为以下四类: (1)ETL:ETL应该是目前实时计算最普遍的应用场景.例如在TDBank的数据链路中,TDSort读取消息缓存系统Tube中的消息,通过流数据处理系统将消息 ...

  5. 腾讯基于 Flink 的实时流计算平台演进之路

    原文地址:https://www.infoq.cn/article/TjDeQDJQpKZ*NpG71pRW 大家好,我是来自腾讯大数据团队的杨华(vinoyang),很高兴能够参加这次北京的 QCo ...

  6. 探索中的隐私计算:天冕联邦学习平台落地案例

    导语 联邦学习(Federated learning)在保证数据隐私性的前提下,使用分散在各地的数据,训练机器学习/深度学习模型,从而在遵守隐私保护法律的前提下,通过协作建模,提升机器学习的效率,其在 ...

  7. 腾讯云发布全链路数据开发平台WeData,大数据开发迈入新时代

    9月11日,在腾讯全球数字生态大会大数据专场上,腾讯云重磅发布了全链路数据开发平台WeData,同时发布和升级了流计算服务.云数据仓库.ES.企业画像等6款核心产品,进一步优化和提升了腾讯云大数据的全 ...

  8. 腾讯云发布全链路数据开发平台WeData,企业数据开发门槛降低60%

    9月11日,在腾讯全球数字生态大会大数据专场上,腾讯云重磅发布了全链路数据开发平台WeData,同时发布和升级了流计算服务.云数据仓库.ES.企业画像等6款核心产品,进一步优化和提升了腾讯云大数据的全 ...

  9. 腾讯云安全隐私计算通过 CFCA 评测,再获国家级认可

    2021年10月19日,中国金融认证中心(CFCA)正式公布了首批多方安全计算金融应用测评通过名单,腾讯云安全隐私计算在安全性.性能等多方面都以优秀的测试表现一路通关,成为国内最先获得该国家级认可的安 ...

最新文章

  1. consul agent的一个故障
  2. Python强大的格式化format
  3. 在用户线程/主线程中推荐MsgWaitForMultipleObjects代替WaitForSingleObject和WaitForMultipleObjects()函数
  4. git 源代码自动检查_检查提交(git log,git show)《 Nest.js 应用案例:源代码管理 》...
  5. 表的插入、更新、删除、合并操作_3_插入新的多条记录
  6. vspython版本控制_Python 版本管理
  7. 《LINUX内核设计与实现》第五章学习总结
  8. JavaScript学习(六十)—JSON
  9. 秒杀安全狗的经验总结
  10. .mdb mysql_ACCESS数据库(.mdb 文件)转 MYSQL
  11. AI 人工智能学习之微积分
  12. 大数据开发离线计算框架知识点总结
  13. 将Ubuntu的引导写入自己所在分区——变色龙引导Linux,Windows,Mac OS(苹果系统)攻略之一
  14. 目标检测学习笔记——使用wandb
  15. 模板文件云存储管理 Sisyphus
  16. 学习Vue3 第二十七章(自定义指令directive)
  17. [激光原理与应用-19]:《激光原理与技术》-5- 激光器的增益、损耗、自激振荡条件
  18. 联想IdeaPad710s win10系统安装Ubuntu18.04.5双系统过程总结
  19. windows 无法删除文件,没有操作权限,右键文件属性查看安全-不可用
  20. 曝光一个骗子,大家小心一点,骗子QQ是493169239和707661812,842086828

热门文章

  1. 生活随记 - 一个数据库工程师朋友的困惑
  2. AutoJs学习-亲戚关系计算器
  3. 智微智能 Elkhartlake K075终端,零售产业新选择
  4. 天猫11.11:搜索引擎实时秒级更新
  5. ArcGIS+python 绘制人口流动OD图
  6. ios html js调用陀螺仪,javascript – chrome mobile和safari mobile中不同的陀螺仪值
  7. matlab神经网络模拟圆棒表面裂纹拓展
  8. php分库分表技术,谈谈关于分库分表的方案
  9. 使用RedisDesktopManager无法连接Redis服务器问题
  10. 创凡PC120的系统安装三步曲