伴随着算力的提升、算法的进步和数据量的增加,人工智能(AI)迎来了第三次发展浪潮,开始了在各行各业的落地探索。

那么,人工智能技术是否真能如我们预想一般在各行各业落地生根?当我们把目光拉远到整体行业应用中时,问题就凸显出来了———除了有限的几个行业,更多的应用领域有的只是小数据,或者质量很差的数据,并且这些数据分散在不同机构中,形成了一个个 “数据孤岛”,缺乏有效的互通和协作。

那么,能否把散落在各地、各机构的数据合并成大数据,这就存在着另一个问题———数据隐私保护。近年来,随着政策法规的逐渐完善和公众隐私保护意识的加强,如何在保护数据隐私的前提下实现行业协作与协同治理,如何破解“数据孤岛”与“数据隐私保护”的两难困境,已成为当下人工智能技术行业应用中亟待解决的问题。

联邦学习(federated learning)作为一种新兴的人工智能技术,可以解决“数据孤岛”和“数据隐私保护”的问题,有望成为下一代人工智能协同算法和协作网络的基础。

高效、安全、打破数据孤岛

联邦学习是指在满足隐私保护和数据安全的前提下,设计一个机器学习框架,使各个机构在不交换数据的情况下进行协作,提升机器学习的效果,其核心就是通过建立一个数据“联邦”,解决“数据孤岛”和“数据隐私保护”的问题。联邦学习具有以下 4 点特征:

  • 各方数据都保留在本地,不泄露隐私,也不违反法规;

  • 多个参与者联合数据建立虚拟的共有模型,实现各自的使用目的,共同获益;

  • 在联邦学习的体系下,各个参与者的身份和地位相同;

  • 联邦学习的建模效果类似于传统深度学习。

2016 年,Google 公司最先提出了“联邦学习”的概念,原本用于解决安卓手机终端用户在本地更新模型的问题,其设计目标是在保障大数据交换时的信息安全、保护终端数据和个人数据隐私、保证合法合规的前提下,在多参与方或多计算结点之间开展高效率的机器学习。

Google 首先将联邦学习运用在 Gboard(Google 键盘)上,联合用户终端设备,利用用户的本地数据训练本地模型,再将训练过程中的模型参数聚合与分发,最终实现了精准预测下一词的目标。

当前,分布式机器学习框架通过集中收集数据,再将数据进行分布式存储,将任务分散到多个 CPU/GPU 机器上进行处理,从而提高计算效率。与之不同的是,联邦学习强调将数据一开始就保存在参与方本地,并且在训练过程中加入隐私保护技术,拥有更好的隐私保护特性。

各参与方的数据一直保存在本地,在建模过程中,各方的数据库依然独立存在,而联合训练时进行的参数交互也是经过加密的,各方通信时采用严格的加密算法,难以泄露原始数据的相关信息。

在大数据与人工智能快速发展的当下,联邦学习解决了人工智能模型训练中各方数据不可用、隐私泄露等问题,因而应用前景十分广阔。联邦学习可用于在海量数据集下的模型训练,实现部门、企业及组织之间的联动。除了分散的本地用户,联邦学习的参与者还可以是多家面临“数据孤岛”困境的企业(它们拥有独立的数据库但不能相互分享)。

联邦学习大有用处

当前,联邦学习在智慧金融、智慧医疗、智慧城市及物联网等方向都已实现了落地应用。

1. 联邦学习+智慧金融

近年来,随着大数据、云计算、人工智能、区块链等技术的迅猛发展,以银行为代表的金融行业进行了升级与变革,技术进步推动了银行业由信息化向着智能化方向演进。但是,银行、保险、投资等行业在加速数字化转型的过程中,依然面临着有效数据欠缺与隐私保护安全风险的双重挑战,“联邦学习+智慧金融”将打破各个企业之间的数据壁垒,是企业完成数字化转型的关键。

例如,传统金融机构、互联网金融公司及金融科技公司通过联邦学习计算,补充彼此之间多场景的用户数据信息,以此为基础进行信用画像评分,提高自身的风控能力,最终实现联邦风控和联邦营销。同时,私人商业银行也可以应用联邦学习技术,解决在银行业一直都难以解决的问题——多方贷款检测。参与方在联邦生态中,无须建立中央数据库,通过联合建模就可以获得多维度评估客户贷款情况的能力,从而在保护客户隐私和数据安全的情况下,降低银行的不良贷款率。

2. 联邦学习+智慧医疗

在智慧医疗方向,联邦学习同样有着巨大的潜力和市场。例如,医学影像 AI 识别能够帮助医生提高对病患部位定位、病灶诊断的准确率。然而,识别效果的提升需要大量数据来训练模型,这些数据往往是受到严格保护的患者隐私数据,而且各医疗机构间也难以实现数据共享。而联邦学习在不共享患者数据的情况下联合多个机构进行协作,从根本上解决数据流通和模型训练的问题。

图|基于联邦学习的医疗影像诊断体系示意图

(来源:《深入浅出联邦学习:原理与实践》)

此外,联邦学习在疾病风险预测、药物挖掘、医护资源配置等方面,同样具有重要作用。

3. 联邦学习+物联网

同样在物联网方面,联邦学习在车联网、智能家居、可穿戴设备、机器人等方向也有着巨大的应用潜力。

近些年来,物联网与云技术、边缘计算、人工智能等技术结合,对实际应用问题进行分析和处理,如对设备进行智能化识别、定位、监控及管理等,而这些都涉及在一个安全、合法的环境下进行大量数据传输。虽然人工智能等技术已经能够突破算力上的限制,但物联网依然面临着一些与数据安全紧密相关的问题,比如由于竞争关系、隐私安全、审批流程等因素,数据在不同物联网节点之间的流通存在难以打破的壁垒,形成了“数据孤岛”问题,即便不同行业之间有意愿交换数据,也可能面临法规限制、竞争保护等诸多无法回避的问题。

比如智能家居方向存在的数据异构、用户隐私安全等挑战,结合联邦学习技术的解决方案就是打破企业间数据壁垒的有效途径之一。而此前据 Strategy Analytics 公司预测,2023 年全球智能家居的市场规模将达 1550 亿美元,这是一个巨大的市场。

另外,可穿戴设备作为当前物联网产业中最大的消费类产品类型,尽管已经为广大用户的日常生活带来了极大便利,但随着用户逐渐意识到保护数据隐私安全的重要性,医疗机构、相关厂商对用户共享数据的获取变得愈发困难,各机构间也存在数据壁垒。

基于联邦学习技术的解决方案,可以很好的解决这些问题。例如,在设备中收到服务器下发的初始模型梯度进行学习,本地待训练模型以此更新初始模型的梯度,更新完成后,将学习模型梯度上传至服务器进行聚合(个人的健康数据 不上传),当检测到本地待训练模型处于未收敛状态时,服务器将新的聚合模型梯度返回各本地端,继续迭代,直到检测到待训练模型处于收敛状态,结束训练。

图|健康风险预测模型流程图

(来源:《深入浅出联邦学习:原理与实践》)

采用本方案可更精确地预测用户健康状态,在睡眠、饮食等方面给用户提供合理的健康指导意见,当用户的某一项指标超过阈值时,可以给出用户患有某类疾病可能性的提示,提醒用户尽快就医。

同时,联邦学习技术还可以基于用户的健康风险预测模型,与各医院数据库进行多维度的联邦迁移学习。当用户在就医时,将本地模型的疾病预测结果与医疗检测结果相结合,为医生推荐合适的诊断方案,帮助医生做出更加科学的医疗诊断。不同用户的健康疾病预测结果也可以间接为医院提供高质量的辅助参考医学数据,使医院各类疾病预测模型的参数得以优化。

联邦学习在各行各业的应用案例还有很多,由于篇幅原因,不再一一赘述。相信在不久的将来,联邦学习会帮助我们打破各领域、各行业的数据壁垒,让人工智能的红利散落到社会的方方面面。

以上部分内容节选自《深入浅出联邦学习:原理与实践》,在不改变原意的前提下,做了简要的编辑。

该书从基础、原理、实战、拓展四个维度系统讲解了联邦学习,作者是人工智能领域的资深专家,现任某大型金融集团科技公司联邦学习团队负责人。本书不仅得到了中外院士的联合推荐,而且得到了来自清华大学、华中科技大学、百度、蚂蚁集团、同盾科技等学术界和企业界专家的一致推荐。其中,百度大数据技术委员会主席杨胜文对本书评价道:

“随着数据孤岛、合规监管和隐私泄露问题日益凸显,各企业间的数据流通与合作变得尤为困难,隐私保护问题已经被推上风口浪尖,而联邦学习正是弥合信任鸿沟、确保隐私安全的关键所在。本书阶梯式、全方位地讲解了联邦学习,既通俗易懂的基础概念,又涵盖深入本质的的技术原理,是一本面向广大读者、具有启蒙和科普性质的联邦学习读物。”

扫码关注【华章计算机】视频号

每天来听华章哥讲书

更多精彩回顾

书讯 | 6月书讯 | 初夏,正好读新书

书单 | 8本书助你零基础转行数据分析岗

干货 | 鸿蒙OS2面世,一本书了解“现代操作系统”!

收藏 | 终于有人把Scrapy爬虫框架讲明白了

上新 | 河马书来了!线上实验领域的“圣经”火热预售中

点击阅读全文购买

【新书速递】深入浅出联邦学习相关推荐

  1. 【新书速递】重磅!混沌工程权威指南

    编辑推荐 作为一名工程师,混沌工程是开始应对系统复杂性的既可行又有效的方法.混沌工程是对系统的容错设计进行验证,保障系统稳定性的新方法!    混沌工程这门学科既成熟得可以沉淀有价值的文献和常见的行业 ...

  2. 【新书速递】分布式事务开山之作,带你深入理解分布式事务

    随着互联网的不断发展,互联网企业的业务在飞速变化,推动着系统架构也在不断地发生变化.总体来说,系统架构大致经历了 单体应用架构→垂直应用架构→分布式架构→SOA架构→微服务架构的演变.如今微服务技术越 ...

  3. 【新书速递】图解IT-用Python轻松设计控制系统

    控制工程是一门非常偏重于实践的学科.在我们的日常生活中到处都可以看到自动控制的应用场景.空调和热水器的恒温控制.自动扶梯的速度控制.汽车的发动机转速控制.飞机的飞行姿态控制以及工厂中的自动生产线的控制 ...

  4. 【新书速递】程序员必会的40种算法

    算法是计算科学的核心,在求解实际问题的过程中发挥着重要作用.程序员.算法设计师.架构师.数据分析师等信息技术相关从业人员都应学习算法设计基础知识,积累基础算法,掌握典型的机器学习算法.自然语言处理算法 ...

  5. 【新书速递】流量运营教科书

    在互联网时代,流量运营是企业的核心运营内容之一,包括流量获取和流量转化两个环节.前者负责把外部流量引入企业内部,后者负责转化流量并达成企业目标.<电商流量数据化运营>内容侧重于前者,通过数 ...

  6. Python网络爬虫:利用正则表达式方法爬取‘’豆瓣读书‘’中‘’新书速递‘’条目

    1.简述:正则表达式是爬虫的方法之一,这里利用Requests库进行爬取,尽管Urllib也能进行爬取,但过程过于繁琐,在了解Urllib的爬取过程后,没有进行实战演练,但在学习了Requests的爬 ...

  7. 【新书速递】从原理、架构、案例三个维度深度剖析分布式数据库

    分布式数据库是分布式计算与数据库结合的产物.分布式数据库的概念早就存在,但是直到最近才真正引起产业界的高度重视.这得益于互联网和云计算技术的高速发展与广泛应用. 以"国家政务服务平台&quo ...

  8. 【新书速递】实用安全多方计算导论

    安全多方计算(MPC)是解决数据安全与隐私保护问题的关键安全数据交换技术,近年来发展迅速,但由于MPC涉及复杂的密码学和工程实现技术,行业长期缺乏同时具备MPC研究.应用和实现能力的综合性人才,这阻碍 ...

  9. 【新书速递】评分卡建模红宝书,夯实智能风控底座

    近些年来,智能风控技术在金融风险管理中的应用越来越广泛.智能风控利用金融大数据.机器学习.深度学习.强化学习.时序数据分析.异常检测.社交网络分析.图深度学习.知识图谱.自然语言处理.文本挖掘等智能分 ...

最新文章

  1. C++中友元函数和友元类
  2. gamma分布 pytorch_Probability distributions - torch.distributions
  3. C#访问远程共享加锁文件夹
  4. Golang copy()函数
  5. java多线程学习-java.util.concurrent详解
  6. 机器学习里面的树形模型
  7. (十五)nodejs循序渐进-高性能游戏服务器框架pomelo之Protobuf模块
  8. 1. Zend_Acl
  9. MySQL中的mysqldump命令使用详解
  10. 计算机课打字评课,三年级信息技术《键盘一家》评课稿
  11. 修心修行“十一字”真言
  12. springboot实现word转pdf
  13. Xmarks书签同步工具的用法
  14. 程序员机械键盘选购总结:键盘选的好,Bug一定少
  15. pygame编写飞机大战(9)-播放爆炸动画
  16. read函数和write函数的使用
  17. java线程锁死是什么
  18. 【视频异常检测-论文阅读】Anomaly Detection in Video via Self-Supervised and Multi-Task Learning
  19. LVS+Keeplive 负载均衡
  20. 一个MMORPG游戏的常规技能系统

热门文章

  1. 谈谈新手如何学习PHP^_^
  2. 如何用HTML制作下载文件的网页
  3. 使用飞凌嵌入式IMX6UL-C1板子——qt+opencv环境搭建
  4. ad19怎么手动布线_pcb手动布线教程
  5. java 集成grizzly_使用Grizzly的嵌入式Java服务器:如何启用http2
  6. 打通同花顺问财接口!各类数据应有尽有!股票量化分析工具QTYX-V2.6.4
  7. htmlcss小白标签篇
  8. 初始附着的流程(Call Flow of Initial Attach)
  9. Object克隆的补充与总结
  10. 巨噬细胞靶向胆固醇还原酶 DHCR7 抑制剂