6月23日,由北京金融科技产业联盟秘书处与中国银联联合推出的线上直播栏目“金融科技慕课学院”第三期开播。在本期直播中,深圳前海微众银行股份有限公司人工智能资深研究员范涛以《FATE:工业级联邦学习开源生态建设经验分享》为主题,介绍如何在满足用户隐私保护、数据安全和政府法规的前提下,利用联邦学习技术进行跨组织间数据合作,分享全球首个工业级联邦学习开源项目相关建设经验。

行业背景

AI的发展经历了很多周期,2012年前后开始在国内发展,至今取得突破性进展。在十九届四中全会上,党中央首次提出“将数据作为生产要素参与收益分配”,可见数据在当今时代的重要性。

从2009年至今,国家对数据的监管趋严,呈现严格化、全面化、密集化的特点,即数据监管越发严格,处罚手段越发严厉;保护层面从个人信息数据,扩大到科学数据、医疗数据、电商数据等;数据监管的法律法规会更加紧密地出台。

传统的数据合作存在着一些阻碍,一是数据买卖风险高,无隐私保护,即一些传统企业通过购买第三方数据进行数据合作,但无法保证数据源是否安全、准确与可靠。二是边缘样本或脱敏样本建模效果差,即合作企业之间将数据脱敏后进行数据合作建模,或者合作企业只提供一些边缘的数据样本,其无法保证建模效果,对业务没有实际指导意义。三是仅有建模效果融合,而非数据合作,即合作各方独立建模,最后将建模结果进行融合,虽然数据隐私不泄漏,但并非真正的数据合作,建模效果也较差。

当前的数据合作同样存在着一些困境,一是跨机构间数据合作受阻,即传统线下购买数据、联合建模的方式被阻断,安全合规存在风险,担心泄漏用户隐私,跨机构间存在信任危机。二是机构内跨部门间数据中台建立困难重重,即各部门虽知道数据的价值,寻求和其他部门进行数据合作,但又都不愿意泄露自身业务的核心数据。

数据是一种生产资料,是近几年推动人工智能发展的重要因素。人工智能是发展力突破。联邦学习是一种新的生产关系,改变了传统数据的使用方式。

横向联邦学习

横向联邦学习对于C端和B端均有适配的应用场景。以微众和合作行共建反洗钱模型,期望优化反洗钱模型举例,设定时以Y 表示是否存在洗钱行为,合作行和微众都有X、Y,双方却均不暴露自己的X、Y,如用传统的建模方法,微众和合作行存在着各自样本不够多的问题,其所期望结果是在保护隐私的条件下,建立联合模型,联合模型效果超过单边数据建模。

横向联邦学习的各个参与者拥有的数据特征(包括数据标签)相同,数据indices/ID不同,参与者之间不需要交换信息,有FedAvg算法,对于深度学习(深度神经网络)有很好的支持。

横向联邦最典型的应用是视觉场景,它面临着标签数量少、数据分散且集中管理成本高、模型更新和反馈离线延迟等挑战。通过横向联邦学习,可实现在线模型更新和反馈,无需集中上传数据,这有利于保护数据,提高隐私性。

微众银行与腾讯天衍实验室共同将联邦学习与医疗深度融合,脑卒中预测准确率达80%。基于联邦学习,双方建立了脑卒中患病概率预测模型,其中包括三家三甲医院和两家小型医院病患住院流程数据和体征数据。在效果上,基于联邦学习的联合模型效果优于任意一家医院数据独立建模效果,联邦学习训练所得模型效果与集中数据训练所得模型效果差异甚微。

纵向联邦学习

纵向联邦学习在国内有非常重要的场景应用价值。说及纵向联邦学习,首先要科普几个密码学习知识。同态加密是纵向联邦学习中一项非常重要的技术,分为全同态加密和半同态加密,在Paillier项目中所运用的是半同态加密。

在知乎上有一篇可形象化阐释同态加密的文章,概要为有个叫Alice的用户买到了一大块金子,她想让工人把这块金子打造成一个项链,但是工人在打造的过程中有可能会偷金子。鉴此,能不能有一种方法,让工人可以对金块进行加工,  但是不能得到任何金子?Alice可以这么做:她将金子锁在一个密闭的盒子里面,并在盒子里安装了一个手套,工人可以戴着手套对盒子内部的金子进行处理,但由于盒子是锁着的,所以工人不仅拿不到金块,连处理过程中掉下的任何金子都拿不到。加工完成后,Alice拿回这个盒子,把锁打开,就可得到全部金子。基于同态加密技术,这当中的对应关系是:盒子是加密算法,盒子上的锁是用户密钥,将金块放在盒子里并上锁可视同将数据用同态加密方案进行加密,加工环节是应用同态特性在无法取得数据的条件下直接对加密结果进行处理开锁环节是对结果进行解密并直接得到处理后的结果。

多方安全计算是纵向联邦学习的另一项技术,它包括多个分支,秘密分享(Secret Sharing)便是其中之一,有利于保护用户数据隐私。除了上述两项主流技术,纵向联邦学习还包括不经意传输协议等技术,比如Alice有两条消息M0和M1,Bob想要Alice手里M0信息,但不希望让Alice知道他拿走了M0消息,这便可以通过不经意传输协议实现。

纵向联邦学习最典型的需求场景是联合建模。以微众与合作企业联合建模,微众有Y(业务表现),并期望优化本方的Y预测模型举例,设定时,只有微众拥有Y=“逾期表现”,合作企业无法暴露含有隐私的X,如用传统建模方法,合作企业缺乏Y而无法独立建模,X数据全量传输到微众亦不可行,其所期望的结果是保护隐私条件下,建立联合模型,联合模型效果超过单边数据建模。

纵向联邦学习的各个参与者拥有的数据ID相同,数据特征不同(有的参与者可能没有标签)。参与者之间需要交换中间结果,支持XGBoost/SecureBootst之类的模型,可通过split learning支持神经网络模型,大规模纵向联邦系统复杂度较高。

在进行基于隐私保护的样本id匹配时,如何寻找交集: X∩Y=[u1, u2, u3] ?它需要满足Party A不知道Party B有 u5、Party B不知道 Party A有u4之条件,解决方案是RSA +哈希机制的安全求交方案。

纵向逻辑回归是在数据分散的情况下,学习每个模型的梯度和参数。

SecureBoost实现了多方协同共建梯度提升树模型,运用范围广泛。

纵向联邦学习在很多方面得到有效应用,比如基于FATE建立联邦数据网络,提升银行业风控/反欺诈能力,即银行与更多的金融机构/企业、大型互联网公司共同搭建联邦数据合作网络,帮助银行及各金融企业实现金融风控能力建设、业务量与业务效率提升,并满足监管对风控的要求,现已覆盖金融反欺诈、贷前风控、贷后监测等多类金融场景下的联邦数据合作。

再比如基于FATE建设联邦智能协同中台,实现跨组织客户资源协同,即通过联邦智能数据合作协同中台,集团内部不同业务子公司之间进行大数据合作,准确地分析集团现有客户,更有效地利用集团内部客户资源发挥不同业务板块的数据价值,通过联邦建模建设更有力的推荐服务,实现精准的交叉营销。

FATE开源社区

FATE领跑联邦学习行业发展,为行业做出贡献。

截至目前,FATE项目已拥有超过900家机构参与,覆盖2200微信社群用户。FATE与腾讯、VMware、银联、建信金科、工行、农行、光大科技等共同成立社区TSC,累计maintainer达16名,并联合运营FATE开源社区,提升行业影响力;此外,FATE成为腾讯云安全联邦学习产品、腾讯云神盾产品、京东、银联等多个公司的联邦学习产品基础框架。

微众联邦学习产品已系统通过《信息安全等级保护》三级备案,通过中国信通院《大数据·联邦学习数据流通产品》《⼤数据·多方安全计算数据流通产品》《联邦学习评估专项》认证,完成国家金融科技评测中心(银行卡检测中心)多方安全计算金融应用技术测评。

微众联邦学习产品积极参与到标准建设中,发布全球第一个联邦学习相关国际标准。在国内标准方面,已参与编写信通院《基于多方安全计算的数据流通产品技术要求与测试方法》《联邦学习技术与应用》标准及央行金融标准化委员会《多方安全计算金融应用技术规划》的标准,正在参与编写金融行业标准《联邦学习金融应用与互联互通标准规范》、通信行业标准(CCSA-TC1/TF1)《联邦学习的安全评测技术要求及测试方法》《联邦学习跨框架互操作技术要求》及团体标准(CCSA-T601)《联邦学习跨平台互联互通标准》。

和许多其他相关技术架构一样,FATE技术架构的底层是Tensorflow / Pytorch(深度学习)、EggRoll /Spark(分布式计算框架)和多方联邦通信网络,上层为联邦安全协议,并在安全协议的基础上构建联邦学习算法库。围绕实际场景,FATE在技术架构顶层构建了联邦区块链、联邦多云管理、联邦模型可视化平台、联邦建模pipeline调度、联邦在线推理等。

FATE联邦算法组件已发展至30余个,实现工业界主流场景算法全覆盖和工业界主流多方安全计算协议全覆盖,涉及数据输入输出、纵向联邦统计、纵向联邦特征工程、纵向联邦学习算法、横向联邦学习算法、模型评估、安全计算等算法方案。

在端到端联邦建模工作流管理上,FATE-Flow为FATE提供了端到端联邦建模Pipeline调度和管理,主要包含DAG定义联邦学习pipeline、联邦任务生命周期管理、联邦任务协同调度、联邦任务追踪、联邦模型管理等功能,实现了联邦建模到生产服务一体化。FATE Board是联邦学习建模的可视化工具,为终端用户可视化和度量模型训练的全过程,FATEBoard由任务仪表盘、任务可视化、任务管理与日志管理等模块组成,支持模型训练过程全流程的跟踪、统计和监控等,提供了丰富的可视化呈现。

FATE Serving为FATE提供联邦在线推理服务,主要包含实时在线预测、集群管理与监控、在线模型管理与监控、服务治理等功能,具有实时预测极速响应、多方联合并行推理、基于模型的服务治理、高可用高性能、资源实时监控、生产级服务保护等核心优势。FATE Cloud具有三大核心功能,一是站点注册与管理,二是自动化部署与升级,三是权限管理。

FATE Chain是联邦学习区块链网络框架,在满足多方数据隐私、安全和监管要求的前提下,将联邦学习与区块链融合,提供去中心化的应用,通过分布式的存储和运行,保证极高的透明度和安全性,使数据管控满足不可篡改、可追溯、可审计等要求,实现联邦多方对等合作与合规有序的发展。

【更多精彩内容,欢迎关注FATE开源社区】

FATE:工业级联邦学习开源生态建设经验分享相关推荐

  1. FATE:工业级联邦学习开源平台

    下载论文请点击:FATE:工业级联邦学习开源平台https://mp.weixin.qq.com/s/mTtbiASU5ZT6XOpwza_GHA 近年来,联邦学习飞速发展,成为解决数据孤岛和用户隐私 ...

  2. 联邦学习开源框架方案选型

    无知者:[联邦学习开源框架]FedLab - 加速FL算法验证 联邦学习开源框架FedLab相关 FATE 单位:微众银行 github: https://github.com/FederatedAI ...

  3. 固态存储行业领导者硅格半导体加入龙蜥社区,共同推动开源生态建设

    近日,深圳市硅格半导体有限公司(以下简称"硅格半导体")签署了CLA(Contribution License Agreement,贡献者许可协议),正式加入龙蜥社区(OpenAn ...

  4. 极狐GitLab硬实力助力中国开源生态建设

    近两年,我国开源生态发展势头迅猛,在推动信息技术产业创新,促进产业协作,加快各行业数字化进程等方面的作用日益突出.为满足各类企业级用户技术创新与敏捷迭代的需求,9月23日,极狐GitLab在京举办了& ...

  5. 每周推荐短视频:企业学校与用户如何参与开源生态建设?

    校企机构等多方角色如何参与数据库开源生态建设?如何通过校企合作培养更多数据库人才?本期大咖说,阿里云联合武汉大学.深圳大学和上海开源协会展开共同探讨. 嘉宾简介 阿里云数据库产品事业部首席架构师.阿里 ...

  6. 工信部携码云 Gitee 入场,国内开源生态建设进入快车道

    点击上方"开源社"关注我们 | 转载自:码云Gitee | 编辑:Corrie | 设计:冯艺怡 开源社引言 大家好,我是开源中国创始人红薯,同时也是开源社理事. 开源中国运营了7 ...

  7. TDSQL PG版再升级,深度参与开源生态建设

    7月14日,腾讯云数据库TDSQL PG版的开源版本(开源代号TBase)迎来又一次重大升级:升级后的TDSQL PG V2.4.0版在2PC事务方面得到优化,易用性大幅提升,具备更强的分布式计算性能 ...

  8. 启智平台发布联邦学习开源数据协作项目 OpenI 纵横

    --新一代人工智能开源开放平台基础全面确立 2019年6月18日, OpenI启智新一代人工智能开源开放平台技术委员会2019年第二次会议在鹏城实验室举行,OpenI技术委员会主席黄铁军同鹏城实验室. ...

  9. 大数据技术原理与应用课程建设经验分享

    大数据技术原理与应用课程 建设经验分享 林子雨 厦门大学信息科学与技术学院, 福建 厦门 361005   摘要:大数据专业人才的培养是世界各国新一轮科技较量的基础,高等院校承担着大数据人才培养的重任 ...

最新文章

  1. 打通新场景,源创计划第一弹!“悟道”大模型应用合作交流会
  2. 韩系春装搭配 穿出优雅气质
  3. springboot的profile配置
  4. Socket连接心跳包的机制总结
  5. 医保费用监控指标体系建立(四)医疗机构指标分析
  6. 剖析:学思科的未来(一)
  7. 谭浩强c++程序设计知识点思维导图
  8. mysql utf 8bm4 没用_不要在 MySQL 中使用“utf8”,請使用“utf8mb4”
  9. Spring4.x()---JdbcDaoSupport的使用
  10. 20211118:力扣第267周周赛(上)
  11. 人生三分之一的睡眠决定着另外三分之二的精彩
  12. HDU 6096 树套树
  13. 依旧是输入输出(存字符矩阵,空格,换行)
  14. 【陷波滤波器】陷波滤波器设计与matlab仿真以及在PID控制器中的应用
  15. 打开并读取npy文件,查看文件内容
  16. 用html制作一个中国高铁网页,行者|终于有人制作了一张靠谱的全国高铁地图!...
  17. 计算机学报latex模板\renewcommand\figurename失效
  18. 什么是美国能源之星计划?
  19. 华为HMS:风雨突然,仍求自我
  20. MarkDown添加图片的三种方式

热门文章

  1. borderRadius的计算缩写理解
  2. PHP入门指南:简单易学的语法和丰富的调试工具与安全性最佳实践
  3. python字节流分割_python字节流处理
  4. 从高德搁置O2O看BAT“圈地”
  5. 小米推出最新“全家桶”,为上市献礼?
  6. 打印部复印社快印图文网站织梦模板
  7. Python基础之day01-基础知识
  8. 为什么 12306 时不时要崩一下?
  9. STC用PCA测量脉宽_利用微处理器设计的电机数字测速系统,抗干扰能力强、测量精确...
  10. 全球顶级的数据科学盛会KDD8月25日线上启幕,四大亮点首发,快抢鲜进!