重要申明:本文转载自https://user.guancha.cn/main/content?id=674888。

人工智能助力抗疫又添新场景。据报道,英国剑桥爱登布鲁克医院(Addenbrooke’s Hospital)与全球20家医院和医疗科技中心联合医疗科技领军企业英伟达采用人工智能预测新冠肺炎患者从抵院急救起24小时内的氧气需求量。

该研究的一大亮点在于采用了联邦学习技术分析了全球约10,000名新冠患者的数据,成为迄今为止规模最大,范围最广的联邦学习临床研究之一。参与研究的多位专家表示,联邦学习不仅在医疗领域设立了全新标准,更可以让各行各业在不牺牲隐私的前提下打造强大的人工智能模型。

作为隐私计算技术的主要路径之一,联邦学习近年来受到广泛关注并被寄予厚望。业界常以“数据不动模型动”来概括联邦学习的基本原理。也就是说,参与联邦学习的各方基于本地数据训练形成本地模型,不同的本地模型再经过参数传递,最终聚合形成全局模型。

从其名称也可以看出,“联邦”代表各数据拥有方以分布式架构开展合作,“学习”则代表机器学习、深度学习人工智能算法模型。其中的关键点就在于,联邦学习实现了让“模型找数据”,而非“数据找模型”,数据始终只留在本地,也就大大降低了数据泄露风险。

尽管联邦学习的知名度不断提升,落地应用逐步推广,但整体发展仍处早期,在不少方面尚未形成共识,甚至存在一些误区,亟待业界“正本清源“。

误区一:金融领域的联邦学习更Cool,需求更高,难度更大?

隐私计算形成了让数据“可用不可见”的解决方案。从甲子光年《2021隐私计算行业研究报告》的示意图可以看到,联邦学习处于整个隐私计算技术体系的“核心位”。


来源:甲子光年《2021隐私计算行业研究报告》

近年来伴随技术成熟及数据安全相关合规要求趋严,联邦学习不仅从理论走向实践,还受到资本热捧,商业落地正在迎来爆发。据《2021隐私机密计算蓝皮书》,医疗、金融、政务是隐私计算的三大应用场景。

在众多落地领域中,金融业可谓首屈一指。联邦学习在智能风控、反洗钱等方面优势明显。金融领域合规要求严,数字化、智能化及数据结构化程度高,都为联邦学习的落地创造了先天优势条件。

不过需要指出的是,虽然联邦学习在金融领域成果显著,但实际上联邦学习却原生于医疗领域。相对来说,医疗领域的复杂度和门槛则更高。而对于联邦学习技术服务企业来说,选择医疗这条路,也就意味着更加硬核的技术自信、投入度和专注力。

“我们50%的研究精力以及商业业务都在隐私计算与医疗的结合上,政务、金融等为医疗领域之外较为注重的领域”,锘崴科技创始人、董事长王爽教授坦言。据他介绍,隐私计算在医疗领域的应用其实相当复杂。

一是数据类型的复杂度,包括结构化、非结构化、基因组学、影像学数据等数据类型医疗大数据的分析经常需要利用多模态数据的联合分析,得出完整的患者画像,辅助医疗诊断和治疗。

二是方法论,除了金融领域常用的回归模型、树模型等,医疗领域由于其数据类型的多模态性、疾病的多样性、应用场景的高复杂性,医疗领域需要更复杂和多样化的方法论的支持。

三是模型精准度,医疗领域对模型的精准度要求更高,金融通常侧重于模型的预测结果的精度,医疗则是模型参数和预测结果的精度并重,模型中涉及的参数(如预测有无糖尿病模型中,不同标签如血压、肥胖、是否过度饮酒等因素所对应的模型参数的权重)均可指导临床治疗,影响临床治疗路径。

四是建模的安全性,由于建模过程设计多个合作方,如何避免参与方的恶意行为(例如,计算过程掺假等)可能对于疾病诊疗结果造成的影响也是一个关键的问题。这需要联邦学习系统提供额外的应对恶意行为的能力。

误区二:训练模型,数据多就是好?

追根溯源,医疗场景的复杂性和高要求还是源于其数据的复杂性。尽管人们一般认为人工智能模型基于大数据“喂养”,训练数据越多,模型预测越准。但现实中,最好的算法却往往来源于优质精炼的数据集,也就是要“保量”更要“保质”,而非一味求多。

这样的数据集显然十分稀缺。伴随各行业数据安全意识的增强以及各国法律法规的完善,传统的中心化数据共享模式已经难以走通。更难的是,医疗机构视数据为核心资产,医疗数据敏感性高,安全隐私合规要求严格,更不用提跨境数据流动这一全球性难题了。

联邦学习之所以能够解决数据隐私和治理的挑战,就在于其实现了把分散的“小数据”提供给机器学习模型。在联邦学习框架下,无论是训练阶段还是验证阶段,数据拥有方都不仅能规定自己的数据管治流程及其相关隐私政策,还能控制甚至取消数据访问权限。

联邦学习“数据不动模型动”的优势就在于,庞杂的医疗数据无需再以中心化方式从各本地机构复制到中心“数据湖”,再由每个使用者复制到各自本地用于模型训练。由于是模型在各机构间移动,模型自身就能“汲取”越来越多的数据集而变得更大更强,更无需考虑数据存储的相关要求和成本。

基于这样的先天优势,联邦学习可以为医疗领域带来大规模、跨机构的数据共享。借助联邦学习,使得在数据合规可控的前提下获得丰富的数据多样性成为可能,如跨地域、跨人种的病例数据。另一个典型例子就是罕见病的创新研究,因为罕见病的发生概率很低,单个医疗机构的相关数据量也就很少。

由于联邦学习实现了数据无需集中汇集就可以进行联合分析,同时结合专业的医疗领域的模型开发能力,以及可扩展的底层隐私计算和联邦学习框架,其应用范围就可以扩展至整个医疗领域的人工智能模型开发。2020年,王爽教授带领锘崴科技团队完成了全国首例利用联邦学习在带有隐私保护的情况下进行的全国性多中心强直性脊柱炎(AS) 全基因组关联分析(GWAS)。该分析研究通过隐私保护计算实现了在不分享明文原始数据(个体基因数据)的情况下的联合分析,其成果发表在生物信息学顶级期刊Briefing in Bioinformatics上。

总结来说,联邦学习对数据集的需求是贵精不贵多,根据场景所需精准聚合小数据,再串联成大数据,才能训练出更精准的模型。

误区三:联邦学习理论各有说法,一定有高下之分?

目前我国联邦学习领域已经诞生了一批代表性企业,其中不仅包括腾讯、阿里这样的巨头,也有一众实力不俗的创业企业,还涌现出不少技术大牛。除王爽教授外,微众银行首席人工智能官杨强、同盾科技人工智能研究院院长李晓林等也都是业内公认的联邦学习“三剑客”。

目前隐私计算企业多采用以一个技术为主,其余技术为辅助的研究方式,从上述各企业负责人或首席科学家的研究方向看也是如此。在商业应用中,隐私计算企业随着技术结合商业落地的实践,隐私计算技术也在不断更新迭代。

事实上,联邦学习领域无论技术还是市场都尚处发展早期,面对不同技术路径与其纠结孰优孰劣,不如坦然接受百家争鸣。比如,杨强教授的迁移学习、王爽教授的安全联邦学习,李晓林教授的知识联邦,三者解决的问题和场景不同,也各有优势。

以迁移学习为例,其经典的“羊吃草”模型深入人心,虽然灵活可控,但前提是需要足够大的草原(即庞大的数据量),大草原能更好的养出通用肥美的羊(即模型),比如产奶的羊产更好更多的奶,或者用于肉食的羊,肉质更加肥美等,再迁移到相关场景微调使用,比如基于互联网数据学的自然语言处理模型,应用到医学某个疾病领域,需要再通过医学的专业数据进行模型调优。


图:羊吃草模型(来源:互联网)

这个过程中,一方面数据规模可能不够,预训练“肥美的羊”时,通常需要的数据和算力会比模型微调时多,有些场景下,并没有“足够的大数据”条件来支撑训练;另一方面算法和数据的安全还可能面临挑战,“羊吃草”的过程可能也会出现不可预料的安全意外,比如羊预期吃的是有机草,没有农药,但是被提供的草是假有机草,里面有很多农药化肥;又或者食料员给喂的食料有偷工减料等。甚至羊本身也会被掳走、被调包,产奶的羊被变成肉食的羊或者产羊毛的羊换成产奶的羊,羊和草的安全都无法保证。

总的来说,联邦学习并非无懈可击。从过程来说,尽管数据不出本地,但联邦学习的分布式架构决定了其必然需要节点间的通信。本地模型形成全局模型的过程需要传递参数,遇到“有心人”就有可能在通信过程中获取这些参数并反推出原始数据,甚至释放出假参数来破坏训练模型。

从结果来看,联邦学习的最终目的是要获得人工智能模型,在联邦学习的合作中,技术无法辨别参与方是否怀有恶意,如果有参与方借机作恶,让联邦学习训练出错误的模型,便会导致训练失败,那么即便原始数据安然无恙,整个联邦学习仍将毫无意义。

为了从底层切中要害,安全联邦学习以数据不动模型动的多数据源合作方式与数据全流程加密相结合确保“程序正义+结果正义”双重实现,这个计算过程可类比为有机水果(organic fruits)的种植过程。通过安全联邦学习可以确保在不涉及技术数据泄漏的前提下,将种植有机水果的过程中如育种的机理数据、有机肥的生产配方、培育浇灌的技术、运输中的数据进行综合利用,培育出更优质的有机水果。同时可以验证培育过程是有机的,符合有机食品生产的全流程标准,防止在送到消费者手中的过程被掉包。。最终消费者可以一目了然的得知手中有机果实的生产全过程,安心使用。

放之于上面提到的羊吃草模型,安全联邦学习的出现可以很好的补足两点:一是为羊吃草,搭建一个巨大的保护罩,让羊沿着既定的路径不受外界干扰的去吃草,定点定量的为客户提供羊奶、羊毛和羊肉,避免出现被盗和滥用的情况。二是跨联打通各领域的“小草原”,既划定好各小草原的安全边界,又能让数据交叉互通。

各个联邦学习理论无论外延有多丰富,本质目标和攻坚点都是在于,做好模型拆分,适配不同的业务需求,训练构建出不同类型的精准模型,实现精准预测,需要兼顾建模参数的精准度、数据隐私保护性能、安全性、实时性等多重要求,安全联邦学习可以说是这一理念的最佳实践,其强化的安全性为数据和模型提供了安全保障,同时强调准确性,给模型匹配正确相关的数据,而非盲目“投喂”。

一文重新认识联邦学习相关推荐

  1. 一文读懂联邦学习的前世今生(建议收藏)

    前言 联邦学习(Federated Learning)作为人工智能的一个新分支,为机器学习的新时代打开了大门.如果投票问人工智能和大数据应用领域有什么好玩又好用的新技术,"联邦学习" ...

  2. 一文详解百度、谷歌、京东、腾讯在分布式网络训练下的联邦学习解决方案

    fedprox | fedavg | 联邦学习 机器学习 | 差分隐私 | 分布式网络训练 随着机器学习.隐私计算.高性能计算.深度学习训练.差分隐私的快速发展,如今的人工智能仍然面临两大挑战.一是在 ...

  3. 【推荐系统】一文梳理联邦学习推荐系统研究进展

    推荐系统,对于我们来说并不陌生,它已经无时无刻不方便着我们的生活.学习.工作等方方面面,并且已经成为许多社交/购物/新闻平台中必不可少的组件.近些年来学术界以及工业界的研究者们已经对其进行了大量研究并 ...

  4. 深度学习核心技术精讲100篇(四十三)-人工智能新技术-知识普及篇:一文带你深入认识下联邦学习的前世今生

    前言 联邦学习(Federated Learning)作为人工智能的一个新分支,为机器学习的新时代打开了大门. 本文为您解读: 1. 联邦学习为什么这么热? 2. 联邦学习能做什么? 3. 三合一速成 ...

  5. 赠书 | 联邦学习如何在视觉领域应用?

    前言: 联邦学习是如何应用在视觉领域的?本文将通过一个获得了2020年AAAI人工智能创新应用奖的案例来向大家介绍. 本案例是联邦学习在视觉.物联网.安防领域的实际应用,对分散在各地的摄像头数据,通过 ...

  6. 如何全面认识联邦学习

    作者 | 王健宗 李泽远 何安珣 来源 | 大数据DT 头图 | 下载于视觉中国 什么是联邦学习 联邦学习是一种带有隐私保护.安全加密技术的分布式机器学习框架,旨在让分散的各参与方在满足不向其他参与者 ...

  7. 2020年趋势一览:AutoML、联邦学习、云寡头时代的终结

    作者 | Roberto Sannazzaro,Ben Longstaff 译者 | 夕颜 出品 | AI科技大本营(ID:rgznai100) [导读]在 2020 年来临之际,新年前夕往往是人们回 ...

  8. ​《2021联邦学习全球研究与应用趋势报告》发布,中美为最大领跑者 | 附下载链接...

    撰文:XT 编审:寇建超 排版:李雪薇 7 月 31 日,美国亚马逊公司(Amazon)被卢森堡数据保护委员会处以 7.46 亿欧元(约合 57.2 亿元人民币)的罚款,原因是 Amazon 违反了欧 ...

  9. 联邦学习首个国际标准正式发布

    2021-04-02 13:31:45 导读:农夫养了一只小羊,想给它吃各种不同营养成分的草料,需要去各地收集草料再运送回来喂它.但是有一天,草料场担心"熟客"农夫暴露他们的商业机 ...

最新文章

  1. 【TP3.2】路由匹配和规则
  2. Android OkHttp(1)
  3. 职教云python题和答案_智慧职教云课堂Python程序设计题目答案
  4. Windows下使用xShell向远程Linux上传文件
  5. WINCE6.0 中文支持
  6. Web开发兼容性系列文章(一):不同设备浏览器的userAgent值大全
  7. qrcode方法生成的二维码安卓手机长按不识别
  8. flutter项目内配置代理
  9. CSS3动画 - 图片开关灯阴影动画
  10. CentOS7 基于http服务搭建本地yum仓库
  11. mysql5.7非源码版msi安装教程
  12. android 调用 asp.net web api,从 .NET 客户端调用 Web API (C#)
  13. keygenerator php,学习PHP生成器的使用
  14. 修改云服务器上文件夹只读属性,求助:为什么我电脑里的文件夹会自动变为只读属性?...
  15. Code First开发系列之数据库迁移
  16. UG自定义工程图模板(一)
  17. iOS逆向(7)-LLDB,自制LLDB脚本,窜改微信红包金额
  18. linux 文本随机抽样_Linux命令总结
  19. 官网下载windows系统
  20. 在单元格中进行Excel换行的两种方法和取消换行符的方法

热门文章

  1. js三元判断html,JS 三元条件运算符
  2. PID控制器开发笔记之一:PID算法原理及基本实现
  3. synthesize和dynamic
  4. mysql 投票总排行_MySQL投票表,查找每个用户对条目的最新投票,并根据值进行计数...
  5. 2010 北大软件及微电子学院 《软件实现技术》小组博客
  6. rabbitmq 持久化_RabbitMQ原理与相关操作(三)消息持久化
  7. python3 json模块_详解python 3.6 安装json 模块(simplejson)
  8. javaee 中文帮助文档_从中游公司跳槽阿里必知:K8s、Nginx、Redis、微服务面试文档...
  9. php打开网页执行即执行bat程序_CVE202011107:XAMPP任意命令执行漏洞复现
  10. linux delete内存不下降_linux内存分配管理