在9月27日于杭州云栖小镇召开的云栖大会“金融智能”专场上,人工智能大咖宋乐教授分享了金融特色机器学习在蚂蚁金服的发展与应用。宋乐教授是蚂蚁金服人工智能部研究员,同时也是美国乔治亚理工大学终身副教授和机器学习中心副主任。他还是国际机器学习协会董事以及多个国际顶级会议的领域主席。

机器学习在蚂蚁金服各个场景,已经像水和油一样渗透,驱动着各种各样业务的发展。会议现场,宋乐教授详细介绍了金融特色的机器学习,重点阐述了三方面的技术:面向海量图数据的深度学习系统、自动机器学习系统、多智体对抗强化学习系统。

以下为演讲的文字实录:

面向海量图数据的深度学习系统

金融场景和互联网其它场景不一样的地方是,其数据是一个巨大的金融网络。在这个网络中资金在不同的个体之间流动。资金流动过程中涉及到各种各样类型的节点,有用户、商家、公司等角色节点,也有账号等虚拟节点,还有WIFI设施、终端等设备节点,以及地点等物理节点。同时,这些节点之间的关系和信息交互的类型也可以不同,从而形成巨大的图。如何对这个图进行机器学习建模,发现其中的有效信息,是非常复杂的过程。

懂机器学习的同学知道,机器学习要对图数据建模,首先需要把数据进行向量表征,例如类似逻辑回归、决策树等模型都需要先对数据进行向量表征。但图数据的输入并不是向量表征,它是异构且不规则的,每个节点的邻居个数不一样,连接的关系也不一样,这需要一个平台实现图数据到向量表征的转换过程,然后再基于向量表征实现各种各样的机器学习模型。下图展示了一种通用的图向量表征框架。

图数据进行表征学习之后,就可以做各种各样的应用,例如推荐和决策应用,也可以做一些生成模型。现在有一个在学界比较火的深度学习模型叫做卷积神经网络,其学习过程就是对每个节点和边用神经网络参数化传播的方式来实现深度神经网络的建模。

蚂蚁金服的图数据非常复杂庞大,可以涉及到上百亿的节点,上千亿的边。怎样把大体量的数据用起来,进行机器学习建模,需要很好的系统架构和平台建设支撑。其中包括,怎样存储这些图数据,从而能够支持快速查询,快速推理;以及在逻辑层怎样组织这些数据,是社交关系网络、资金转移网络还是媒介网络。有了这些数据的逻辑组织和图数据的存储以后,还要做通用的算子,包括对图进行采样、随机游走和消息传播。然后,基于这些算子的构件,我们就可以实现各种各样的图深度学习模型,其中既包括基于非监督学习的表征学习模型,也有基于监督学习的表征学习模型。进行表征学习以后,就可以通过机器学习对各种节点、边的类型进行预测,或者时序行为的预测,以及多重目标的预测。基于这些预测模型,我们可以通过离线学习打分或在线学习打分的方式来支持各种上层金融业务。

针对蚂蚁业务海量的数据,除了前面讲的平台的架构设计的思考,还有一些技术上的难点需要解决。我们可能面临百亿级节点、千亿级边,需要考虑怎么样在图上快速的查询节点,并把节点周围的子图抽取出来,这里会用到我们的图存储系统GraphFlat和PHStore。有了这个以后,需要设计机器学习的算法,譬如随机采样的算法,然后把图数据变成一个稀疏的或者是稠密的矩阵运算,在GPU和CPU上进行分布式计算。

除此之外,为了支持各种各样的金融场景应用,还需要支持对不同结构的网络建模。通常金融场景涉及到的网络可能是没有属性的同构网络;也可能是在风控场景经常涉及的异构网络,例如用户和商家之间的资金转移关系;也有可能是带有属性的网络。我们需要用不同的算法模型来处理不同结构类型的网络关系,同时无论哪种类型网络,都可以用一套平台进行建模。目前,我们已经建设了面向多类型图数据的算法库。包括:

  • 面向无属性网络的xGrep,可以针对十亿级节点,千亿级边,数千亿样本进行训练,并研发了分布式随机游走框架和分布式word2vec训练框架;
  • 面向属性网络的GeniePath,这是自适应深度/广度的图神经网络,性能业内领先;
  • 面向异质网络的HeGNN& IGNN,其层次注意力机制提供金融级可解释性,可以自动学习异质信息丰富的语义;
  • 面向知识图谱的KGNN,可对知识图谱进行表达学习,包括图神经网络+图谱模型。

在金融场景很多时候需要具备可解释性,因而需要我们对训练出来的深度模型进行解释,找出具体是网络上的哪一条边或者哪一个节点影响了整个风控系统的决策。为此,我们定义了各种各样的模型,包括GeniePath可以在深度学习网络中自动搜寻节点的邻居,看哪个邻居对当前的信息节点的风控有影响;或者是基于HeGNN、IGNN考虑不同网络层次的影响,甚至是比较粗糙的高层次的网络影响,以及网络的不同维度的影响。

综上所述,一个可用性高的深度图学习平台需要对架构做逻辑的划分,同时中间的每个划分模块都会有很多技术点,包括系统工程的技术、高性能计算的技术,以及模型算法方面的技术。

上图是两个具体的落地实例。首先,我们把图深度学习应用到营销场景,通过用户和商家的历史购买行为来预测用户对红包金额的敏感程度,从而对商家红包实现个性化定价,帮助商家更好地分配红包金额,提升营销资金利用效率,这个方法把营销的成本降低了8%。我们还把深度图学习和知识图谱结合起来应用在企业信贷,提高了授信额度,新增授信额度数百亿。此外,深度图学习平台还在支付、贷款、保险,财富管理等其他场景中均有各种各样的应用。

在互联网金融中,图神经网络是非常有用的新技术,也是蚂蚁金服大力发展的技术方向之一。

自动机器学习系统

除此之外,蚂蚁金服内部有各种各样的机器学习算法应用场景,每天都有成千上万的模型在训练中,但是算法人员投入在模型训练上的时间和精力是有限的,由于产品纷繁复杂,算法人员既要选择深度学习的网络结构又要选择算法的其他超参,这个过程可能还要加入业务知识;随着数据体量的增加,还需要在比较短的时间调好模型,对模型训练的时间要求也越来越高,而传统的单纯依靠人工调参很难满足我们对于模型更新迭代的效率要求。

为了解决这个问题,我们建立了自动化建模工具AutoML计算平台,能够支持让平台和算法人员一起协作,从而加速机器学习模型的建模和寻优过程。为此,我们在底层基础设施之上实现了很多的算法来实现特征自动化、超参搜索、网络结构搜索以及元学习,从而降低新模型开发的成本。

介绍一个具体的落地案例,叫做autonet,这是针对公司推荐场景大量使用的深度神经网络算法,基本思想是我们通过将一些以前成功的小的深度神经网络子模块自动化拼装起来,组合构成一个新的网络结构并寻找更高效的模型:一方面将DNN的网络结构自动化的构建起来,另外一方面也对最终的建模效果进行提升。产出的模型在相同资源下,和对比的人工设计的模型基本耗时相当,同时在用户拉新的场景取得了很好的效果,动销率提升了14%。

此外,AotuML还有各种各样的落地场景,后面都应用了自动机器学习平台的网络结构搜索、超参搜索、元学习,以及一些端到端的解决方案能力。各种业务场景的机器学习模型,都可以通过这个平台进行优化,提升效率。甚至跨BU的一些业务场景也基于迁移学习来加速机器学习建模的过程。

多智体对抗强化学习系统

上面两点介绍的是我们的横向技术如何从底层支持各种场景的机器学习模型。接下来介绍的是多智能体强化学习系统在蚂蚁的应用和落地。在实际金融场景中,我们涉及到的节点不是静态的,例如人和商家的节点在交互过程有博弈、合作、对抗,因此我们要把对抗学习跟多智能体的强化学习结合起来应用在这些场景。例如反欺诈场景和金融支付的场景,都可以用多智体强化学习的方式来建模。

但是,很多传统的强化学习的方法都是先假设一个模拟器,然后与之不断进行交互来优化强化学习的策略,例如下围棋。但在金融场景,多智能体强化学习涉及到的模拟器并不是一个静态的,可能是一个人或者是一个机构,所以不存在一个明确好用的模拟器,我们也不知道多智体在行为中,其奖励函数或者是损失函数是什么。因此,使用传统强化学习硬套金融场景是行不通的,首先要根据现有的金融数据或者是用户行为数据学习到一个simulator及其奖励函数,这样才能在此基础上进行强化学习。

为此,我们建立了一个多智能体的强化学习平台,中间用imitation learning的方法来学习用户的行为特征,以及他的奖励函数,在此基础上做各种各样的机器学习。

这是一个具体的多智体的强化学习在推荐系统上的应用。很多情况下,用户登录到一个系统里面,系统会对这个用户进行长期的检查、分析和推荐。好的推荐系统的建模方式不是把用户每次来的行为作为独立的预测问题,而是把它看成强化学习的问题,这样的话,我们可以针对用户长期的奖励、喜好进行优化,而不是短期的推荐,从而让用户长期对推荐的内容感兴趣,产生价值。

这是我们在人工智能顶会ICML(2019)上的论文,我们把强化学习这套理论引入到对抗学习里面,用这个方法来学习用户的点击行为,以及点击行为对应的奖励函数,有了用户的行为模型和奖励模型之后,就可以进行大规模的强化学习。

强化学习在蚂蚁金服还有各种各样的应用,我们还在不断探索和开辟,也欢迎学术界和业界进行更多的交流,共同创新和推动发展。

蚂蚁金服有哪些金融特色的机器学习技术?相关推荐

  1. 蚂蚁金服首席架构师:区块链技术如何促进数字普惠金融

    今天我们正处于技术创新的黄金时代,而这种前所未有的新技术红利也在推动着金融行业发生巨变.比如年初时AlphaGO激起了AI的热潮,而随后口袋妖怪的流行让大家第一次体验到AI和VR的技术可以真切地走入生 ...

  2. 蚂蚁金服研发的金融级分布式中间件SOFA背后的故事

    导读:GIAC大会期间,蚂蚁金服杨冰,黄挺等讲师面向华南技术社区做了<数字金融时代的云原生架构转型路径>和<从传统服务化走向Service Mesh>等演讲,就此机会,高可用架 ...

  3. 云原生时代,什么是蚂蚁金服推荐的金融架构?

    蚂蚁金服在过去十五年重塑支付改变生活,为全球超过十二亿人提供服务,这些背后离不开技术的支撑.在 2019 杭州云栖大会上,蚂蚁金服将十五年来的技术沉淀,以及面向未来的金融技术创新和参会者分享.我们将其 ...

  4. 为什么说蚂蚁金服和京东金融都没啥前途?

    一.金融服务1.0模式 就是传统银行模式,给我你的资产抵押,我给你贷款 这是典型的单维的.金融资产为核心的. 二.金融服务2.0模式 就是互联网金融模式,360度数据收集,通过数据建模来衡量你的贷款信 ...

  5. 阅读 | 蚂蚁金服:科技金融独角兽的崛起

    蚂蚁金服究竟是一家什么样的公司? 1 为什么读这本书? 2 读完有哪些收获? 3 接下来的阅读计划? 1 为什么读这本书? 首先打卡: 说到为什么读这本书,理由很纯粹了,心里还是蛮向往蚂蚁金服这家公司 ...

  6. 蚂蚁金服副总裁蒋国飞:技术全面开放,与合作伙伴共发展

    小蚂蚁说: 如果没有科技创新带来的移动支付技术,现在我们的生活将会是怎样?还可以一个手机走遍天下吗? 蚂蚁金服副总裁蒋国飞在海峡两岸暨香港.澳门互联网发展论坛上表示,科技创新已经深刻地改变着人类的生活 ...

  7. 恒生电子联合蚂蚁金服、阿里云,发布新一代技术平台

    5 月 16 日,恒生电子联合蚂蚁金服.阿里云发布"新一代分布式服务开发平台",恒生电子总裁刘曙峰,恒生电子执行总裁范径武,阿里云智能副总裁.金融云总经理张庆侠,蚂蚁金服 Ocea ...

  8. 阿里四面+蚂蚁金服四面全挂,是我技术太菜了吗?

    去年年末我面试了阿里和字节,原本信心满满的去面试结果全部挂了,是我技术太菜了吗?下面我就和大家说说我遇到的面试难题 阿里一面 1.JVM分区 2.垃圾收集算法 3.索引怎么优化 4.一个8G的服务器, ...

  9. 从蚂蚁金服一窥人工智能在金融领域的机遇与挑战

    从蚂蚁金服一窥人工智能在金融领域的机遇与挑战 CCAI 蚂蚁金服 人工智能 金融 中国人工智能大会 阅读2469  编者按:由中国人工智能学会.阿里巴巴以及蚂蚁金服联合主办,CSDN.中国科学院自动化 ...

最新文章

  1. 人眼中亮斑的检测、定位和去除
  2. Exchange 2013之(三)CAS部署
  3. golang beego快速入门示例(单文件hello.go)
  4. jQuery.protoype.xxx=function(){}
  5. 我是如何学习写一个操作系统(二):操作系统的启动之Bootloader
  6. 配置WCF同时支持WSDL和REST,swaggerwcf生成文档
  7. Android客户端打包方案分享
  8. Json与List的相互转换
  9. java 快速生成有残午餐_写出优质Java代码的4个技巧
  10. 【虚拟机ubuntu设置ssh】ssh连不上问题解决方法
  11. ThymeLeaf的eclipse插件安装
  12. 黑苹果驱动_兼容黑苹果macOS Catalina系统的USB无线网卡型号及驱动下载地址
  13. 谷歌地球看不了街景_谷歌街景车意外拍到的沙雕动物们……也是意想不到的快乐源泉啊!...
  14. AccessibilityService辅助功能的研究及实现自动抢红包功能
  15. 新计算机装系统找不到鼠标,新主板装win7系统不能使用usb鼠标键盘的解决方法(完美)...
  16. 生活中的算法的实际举例_算法在实际生活中的应用
  17. 提现微信和提现到支付宝
  18. Linux中RAID与LVM磁盘列阵技术的使用
  19. JS中window的onload和ready方法的区别
  20. vim java win

热门文章

  1. python的数据类型包括内置的_python基础(三)-数据类型与内置方法1
  2. Python中的多行输入
  3. 快一年没用工作了继续学习编程中。
  4. 人工智能开启数字化新征程,智能语音全速向前
  5. 电池pack结构_详解锂电池pack基础知识,18650锂电池pack工艺技巧总结分析
  6. 基于swing+awt学生信息管理系统
  7. 同步电路出现异步清零可以吗_异步清零和同步清零置数区别
  8. 五金机电行业S2B2B商城系统打破传统线下营销方式,实现企业高质量发展
  9. 图文讲解Zabbix 分布式监控平台添加服务监控项(http,nginx,mysql)
  10. 区块链在游戏产业掀起狂潮