一文重新认识联邦学习

重要申明：本文转载自https://user.guancha.cn/main/content?id=674888。

人工智能助力抗疫又添新场景。据报道，英国剑桥爱登布鲁克医院（Addenbrooke’s Hospital）与全球20家医院和医疗科技中心联合医疗科技领军企业英伟达采用人工智能预测新冠肺炎患者从抵院急救起24小时内的氧气需求量。

该研究的一大亮点在于采用了联邦学习技术分析了全球约10,000名新冠患者的数据，成为迄今为止规模最大，范围最广的联邦学习临床研究之一。参与研究的多位专家表示，联邦学习不仅在医疗领域设立了全新标准，更可以让各行各业在不牺牲隐私的前提下打造强大的人工智能模型。

作为隐私计算技术的主要路径之一，联邦学习近年来受到广泛关注并被寄予厚望。业界常以“数据不动模型动”来概括联邦学习的基本原理。也就是说，参与联邦学习的各方基于本地数据训练形成本地模型，不同的本地模型再经过参数传递，最终聚合形成全局模型。

从其名称也可以看出，“联邦”代表各数据拥有方以分布式架构开展合作，“学习”则代表机器学习、深度学习人工智能算法模型。其中的关键点就在于，联邦学习实现了让“模型找数据”，而非“数据找模型”，数据始终只留在本地，也就大大降低了数据泄露风险。

尽管联邦学习的知名度不断提升，落地应用逐步推广，但整体发展仍处早期，在不少方面尚未形成共识，甚至存在一些误区，亟待业界“正本清源“。

误区一：金融领域的联邦学习更Cool，需求更高，难度更大？

隐私计算形成了让数据“可用不可见”的解决方案。从甲子光年《2021隐私计算行业研究报告》的示意图可以看到，联邦学习处于整个隐私计算技术体系的“核心位”。

来源：甲子光年《2021隐私计算行业研究报告》

近年来伴随技术成熟及数据安全相关合规要求趋严，联邦学习不仅从理论走向实践，还受到资本热捧，商业落地正在迎来爆发。据《2021隐私机密计算蓝皮书》，医疗、金融、政务是隐私计算的三大应用场景。

在众多落地领域中，金融业可谓首屈一指。联邦学习在智能风控、反洗钱等方面优势明显。金融领域合规要求严，数字化、智能化及数据结构化程度高，都为联邦学习的落地创造了先天优势条件。

不过需要指出的是，虽然联邦学习在金融领域成果显著，但实际上联邦学习却原生于医疗领域。相对来说，医疗领域的复杂度和门槛则更高。而对于联邦学习技术服务企业来说，选择医疗这条路，也就意味着更加硬核的技术自信、投入度和专注力。

“我们50%的研究精力以及商业业务都在隐私计算与医疗的结合上，政务、金融等为医疗领域之外较为注重的领域”，锘崴科技创始人、董事长王爽教授坦言。据他介绍，隐私计算在医疗领域的应用其实相当复杂。

一是数据类型的复杂度，包括结构化、非结构化、基因组学、影像学数据等数据类型医疗大数据的分析经常需要利用多模态数据的联合分析，得出完整的患者画像，辅助医疗诊断和治疗。

二是方法论，除了金融领域常用的回归模型、树模型等，医疗领域由于其数据类型的多模态性、疾病的多样性、应用场景的高复杂性，医疗领域需要更复杂和多样化的方法论的支持。

三是模型精准度，医疗领域对模型的精准度要求更高，金融通常侧重于模型的预测结果的精度，医疗则是模型参数和预测结果的精度并重，模型中涉及的参数（如预测有无糖尿病模型中，不同标签如血压、肥胖、是否过度饮酒等因素所对应的模型参数的权重）均可指导临床治疗，影响临床治疗路径。

四是建模的安全性，由于建模过程设计多个合作方，如何避免参与方的恶意行为（例如，计算过程掺假等）可能对于疾病诊疗结果造成的影响也是一个关键的问题。这需要联邦学习系统提供额外的应对恶意行为的能力。

误区二：训练模型，数据多就是好？

追根溯源，医疗场景的复杂性和高要求还是源于其数据的复杂性。尽管人们一般认为人工智能模型基于大数据“喂养”，训练数据越多，模型预测越准。但现实中，最好的算法却往往来源于优质精炼的数据集，也就是要“保量”更要“保质”，而非一味求多。

这样的数据集显然十分稀缺。伴随各行业数据安全意识的增强以及各国法律法规的完善，传统的中心化数据共享模式已经难以走通。更难的是，医疗机构视数据为核心资产，医疗数据敏感性高，安全隐私合规要求严格，更不用提跨境数据流动这一全球性难题了。

联邦学习之所以能够解决数据隐私和治理的挑战，就在于其实现了把分散的“小数据”提供给机器学习模型。在联邦学习框架下，无论是训练阶段还是验证阶段，数据拥有方都不仅能规定自己的数据管治流程及其相关隐私政策，还能控制甚至取消数据访问权限。

联邦学习“数据不动模型动”的优势就在于，庞杂的医疗数据无需再以中心化方式从各本地机构复制到中心“数据湖”，再由每个使用者复制到各自本地用于模型训练。由于是模型在各机构间移动，模型自身就能“汲取”越来越多的数据集而变得更大更强，更无需考虑数据存储的相关要求和成本。

基于这样的先天优势，联邦学习可以为医疗领域带来大规模、跨机构的数据共享。借助联邦学习，使得在数据合规可控的前提下获得丰富的数据多样性成为可能，如跨地域、跨人种的病例数据。另一个典型例子就是罕见病的创新研究，因为罕见病的发生概率很低，单个医疗机构的相关数据量也就很少。

由于联邦学习实现了数据无需集中汇集就可以进行联合分析，同时结合专业的医疗领域的模型开发能力，以及可扩展的底层隐私计算和联邦学习框架，其应用范围就可以扩展至整个医疗领域的人工智能模型开发。2020年，王爽教授带领锘崴科技团队完成了全国首例利用联邦学习在带有隐私保护的情况下进行的全国性多中心强直性脊柱炎(AS) 全基因组关联分析(GWAS)。该分析研究通过隐私保护计算实现了在不分享明文原始数据（个体基因数据）的情况下的联合分析，其成果发表在生物信息学顶级期刊Briefing in Bioinformatics上。

总结来说，联邦学习对数据集的需求是贵精不贵多，根据场景所需精准聚合小数据，再串联成大数据，才能训练出更精准的模型。

误区三：联邦学习理论各有说法，一定有高下之分？

目前我国联邦学习领域已经诞生了一批代表性企业，其中不仅包括腾讯、阿里这样的巨头，也有一众实力不俗的创业企业，还涌现出不少技术大牛。除王爽教授外，微众银行首席人工智能官杨强、同盾科技人工智能研究院院长李晓林等也都是业内公认的联邦学习“三剑客”。

目前隐私计算企业多采用以一个技术为主，其余技术为辅助的研究方式，从上述各企业负责人或首席科学家的研究方向看也是如此。在商业应用中，隐私计算企业随着技术结合商业落地的实践，隐私计算技术也在不断更新迭代。

事实上，联邦学习领域无论技术还是市场都尚处发展早期，面对不同技术路径与其纠结孰优孰劣，不如坦然接受百家争鸣。比如，杨强教授的迁移学习、王爽教授的安全联邦学习，李晓林教授的知识联邦，三者解决的问题和场景不同，也各有优势。

以迁移学习为例，其经典的“羊吃草”模型深入人心，虽然灵活可控，但前提是需要足够大的草原（即庞大的数据量），大草原能更好的养出通用肥美的羊（即模型），比如产奶的羊产更好更多的奶，或者用于肉食的羊，肉质更加肥美等，再迁移到相关场景微调使用，比如基于互联网数据学的自然语言处理模型，应用到医学某个疾病领域，需要再通过医学的专业数据进行模型调优。

图：羊吃草模型（来源：互联网）

这个过程中，一方面数据规模可能不够，预训练“肥美的羊”时，通常需要的数据和算力会比模型微调时多，有些场景下，并没有“足够的大数据”条件来支撑训练；另一方面算法和数据的安全还可能面临挑战，“羊吃草”的过程可能也会出现不可预料的安全意外，比如羊预期吃的是有机草，没有农药，但是被提供的草是假有机草，里面有很多农药化肥；又或者食料员给喂的食料有偷工减料等。甚至羊本身也会被掳走、被调包，产奶的羊被变成肉食的羊或者产羊毛的羊换成产奶的羊，羊和草的安全都无法保证。

总的来说，联邦学习并非无懈可击。从过程来说，尽管数据不出本地，但联邦学习的分布式架构决定了其必然需要节点间的通信。本地模型形成全局模型的过程需要传递参数，遇到“有心人”就有可能在通信过程中获取这些参数并反推出原始数据，甚至释放出假参数来破坏训练模型。

从结果来看，联邦学习的最终目的是要获得人工智能模型，在联邦学习的合作中，技术无法辨别参与方是否怀有恶意，如果有参与方借机作恶，让联邦学习训练出错误的模型，便会导致训练失败，那么即便原始数据安然无恙，整个联邦学习仍将毫无意义。

为了从底层切中要害，安全联邦学习以数据不动模型动的多数据源合作方式与数据全流程加密相结合确保“程序正义+结果正义”双重实现，这个计算过程可类比为有机水果（organic fruits）的种植过程。通过安全联邦学习可以确保在不涉及技术数据泄漏的前提下，将种植有机水果的过程中如育种的机理数据、有机肥的生产配方、培育浇灌的技术、运输中的数据进行综合利用，培育出更优质的有机水果。同时可以验证培育过程是有机的，符合有机食品生产的全流程标准，防止在送到消费者手中的过程被掉包。。最终消费者可以一目了然的得知手中有机果实的生产全过程，安心使用。

放之于上面提到的羊吃草模型，安全联邦学习的出现可以很好的补足两点：一是为羊吃草，搭建一个巨大的保护罩，让羊沿着既定的路径不受外界干扰的去吃草，定点定量的为客户提供羊奶、羊毛和羊肉，避免出现被盗和滥用的情况。二是跨联打通各领域的“小草原”，既划定好各小草原的安全边界，又能让数据交叉互通。

各个联邦学习理论无论外延有多丰富，本质目标和攻坚点都是在于，做好模型拆分，适配不同的业务需求，训练构建出不同类型的精准模型，实现精准预测，需要兼顾建模参数的精准度、数据隐私保护性能、安全性、实时性等多重要求，安全联邦学习可以说是这一理念的最佳实践，其强化的安全性为数据和模型提供了安全保障，同时强调准确性，给模型匹配正确相关的数据，而非盲目“投喂”。