10月28日FMI-2018人工智能与大数据高峰论坛深圳场圆满落幕,微众税银首席风险官许卫以AI在金融风控领域的实践应用为主题进行了精彩的分享。

微众税银首席风险官许卫

以下是许卫演讲内容,飞马网根据现场速记进行了不改变原意的编辑(有删减):

许卫:很高兴来到这个论坛,我今天的主要目的是和大家分享自己在工作中的心得和经验,希望给大家在今后的职业发展道路上提供一点帮助。如果有些人觉得有点收获,我觉得就不虚此行。

我主要是做金融的,所以我今天给大家分享的主要是模型在金融领域的细分。

我的工作生态

工作十几年,在这期间我接触了很多机器学习的方法和工作,我也做了很多这方面的事情。实际上,在金融风控领域,一个很重要的主题是怎么样在人群里面挑选出优质的金融服务人群,挑选出风险最高的要避免的人群,通过控制风险,极大化收益,做这样的事情。

以前金融里面有一个文章叫“Too Big to Fail”,不知道有多少人看过这个电影?金融是关乎国际民生的领域,2008年金融危机的时候,美国有些银行因为过于激进的策略和方法导致风险集中暴露,美国政府当时花很多钱救援这些金融机构和银行,后来被很多人诟病说是纳税人的钱买单。这个文章讲的这件事情,系统重要性的金融机构影响很大,实际上金融危机后变得比较保守。在新技术的采用上相对科技公司比较保守。这其实对我们在座的各位也是机会。不管是谷歌还是Face book,是国内的支付宝或者是腾讯这边,先锐的科技公司出来,如果应用到金融领域实际上是有很多空间可以做这件事情的。

我们都知道,美国四大银行有上百年的以上的历史,但是美国第一资本银行30年内就做到第五、第六的位置,靠的是所谓的“量化分析”的技术。它做的这件事情,我觉得对于各位或者对于国内其实有一定的启发。我还在公司的时候CEO曾经在全公司大会上讲过最近几年招了8000多个软件工程师,多么大的市场和投入。

统计模型vs机器学习

传统的统计方法,最经典的是线性回归,比如人群的身高、体重,不同时间点的分布,在传统理论里面是非常简单的,线性回归就可以了,这是非常简单的传统方法。

量化分析在金融的应用就比较复杂。选择麦肯锡当年做的案例,比如说AB是两个不同的风险区分的指标,现在不同的圈里有不同的风险人群分析,我们如果简单做统计分析的模型,如图所示很难区分出来好坏人群。但是我们的模型里面如果用机器学习的方法,可以很精准的把好的人群和坏的人群区分出来。这只是举例两个维度的结果,现实过程中完全不止两个,可能有几百个变量。在金融里面要花很大力气研究这些变量到底怎么相互影响、怎么相互关联,怎么影响到我们的结果。当然机器学习也有些不足的地方,比如可解释性。给一个新客户放款100万,机器学习说这是好的,但不能告诉为什么是好的,这样风险部门会认为存在很大的风险。如果这种风险累积,就是很大的风险了。美国的监管部门在这块也有要求,对所谓的因果关系的理解。

行业应用的梳理

机器学习或者人工智能在金融行业应用非常广,去年年底我参加一个论坛,当时请了很多谷歌、亚马逊等人工智能实验室的人来做论坛。为什么金融公司请这样的人来?因为人工智能在金融领域的应用还在方兴未艾的阶段。

欺诈的识别:如果刷支付宝或者是腾讯的产品,怎么确认是本人,而不是盗了帐号。有几种类型:一是开帐号的时候,怎么识别这个人是不是本人?这种欺诈是对人群的区分。其次,在信用卡或者消费金融的领域,每笔都要识别,如各位有手机,你拿手机还,你上一秒在这里,几分钟之后出现在千里之外,这是不是认为有欺诈?你也要考虑错误距离的概念,有可能这个人坐飞机的,可能要考虑时间问题。

欺诈的模型已经用到了机器学习的技术。里面有个很重要的速率的变量。这个客户最近这段时间有多少次申请贷款、多少次寻求金融服务,如果非常频繁寻求,说明对资金的渴求,那么这个事情你的欺诈就会高。另外客户填一个表,用多长时间填地址,如果连自己家庭地址都是犹豫不决,写来写去,这个时间上也是一个欺诈指标。

营销的优化:比如第一资本广告投放一年的预算是10亿美金以上,怎么做到最好的优化,最大的效果。做一个AB test,不同的流程设计,差别都很大。

风险的Credit scoring:对人群的风险进行分类。

运营的优化:在银行里面的客服团队,客户打电话进来,现在都是语音识别,自动的做回答。在上市公司里面,很多后台的服务人员有上万的团队,上万人是巨大的开支。按照算法进行优化分发,大大节省人力开支,提高客户满意度。

前面四个是现在用的非常成熟的或者已经广泛应用的领域。

统计模型和机器学习的优劣势

业务角度讲,不管是机器学习还是深度学习还是传统的方法,都是一个工具,都是为了完成最优的结果,都是为了推动业务的发展。

工具角度进行比较,统计学习模型,需要很多的假设,不管是服从正态分布还是贝叶斯理论,这种假设是不是合适,要打问号。另外如果样本量很小,怎么从几十个样本里推算出规律,传统模型处理这种问题很多。相应的,机器学习对大数据处理很强。对变量关系,统计学习更多是处理线性关系和一些非线性关系,机器学习处理更复杂的关系能力更强一些。金融里面处理几百个变量的非线性关系很好,准确度机器学习很好。我们之前做过一个项目,两个组同时做模型,同样的事情,一个组做传统方法,一个组做机器学习,最后进行比较,机器学习的方法精确度更高一些。如果是非常经验丰富的人做统计模型,也能够逼近。

机器学习也有一些缺点,我之前负责过一个项目,小微企业贷款风险建模。最开始的模型用了很多变量,实际上是data driven。发现虽然精度提高了,但是稳定性不够,实际使用上需要做很多优化。

金融领域需要可解释性,可解释性是非常重要的。不能是完全的黑盒子。比如现在做欺诈,道高一尺、魔高一丈,很多欺诈公司是想方设法去找漏洞。所以对这块的反应速度要求很高,精度要求很高,可解释性要求就降低了。还有模型的稳定度,稳定度之前解释过,就不再赘述。还有计算的成本,现在这块对大家不是特别大的限制,但是后来发现也有限制,因为有些公司数据量也是很大。当模型封装之后,效率什么样,很多时候要求毫秒级别的响应,是不是做到实时毫秒级别的响应,要求非常高。

不同方式的比较(金融建模)

金融建模里面最传统的方法是识别人的好坏,最直接的方法是逻辑回归。现在流行的是决策树GBDT。从最传统的方法讲起,当时我们是拿着传统的SAS做分析,现在Python做分析,发现区别存在,同样的事情同样的方法去选,最后选出来的结果不一样。这很可能导致我对客户的识别偏差。就需要解释、搞清楚差别的原因,比如变量选择,我们拿GBDT做变量选择,我们选出的变量也不一样,可能有很大的差别。

当时有一个团队让他做各种不同的软件比较、做分析,把这些东西做归纳。

比如传统方法,对缺失值处理很严谨,每个怎么做,传统的SAS R直接略掉这个,这个不好,因为对样本是一个损失。对现在的方法可能直接给了一个错误出来,这是对逻辑负责,对决策树直接过了,不会给任何错误。对分类变量,比如是好是坏,是哪个地方来的,变量之间的关系不是数据存在,或者不存在数值线性的意义。整个变量的impution,怎么做变量的差值等等,它是不是能自动识别这种变量等等。

二是算法,是用回归、染色回归这种传统的统计方法,还是用弹性网络,可能有很多选择。

不同模型优化的比较。用的比较多的两个指标是AUC和KS,这两个指标大家可能非常熟悉,拿SAS比,发现SAS的结果和其他软件是比较一致的。这是一个开源的东西,需要对结果做一下检测。比如我用SAS,我是每年付SAS很多钱,SAS确保这个软件的结果可验证,没有任何问题。但是Python不能给我保证,我必须自己验证。有的公司没有这方面要求,因为这个东西风险低,对金融机构,尤其比较大的金融机构是由开源软件的验证要求的。

总结

一、现在建模不是简单跑软件代码,同时也是为了解这个事情之后再做选择。可能投机取巧的是,我们非常快速找到这种代码,不管是干嘛,很快出结果,所谓调包侠。我们要深入了解后面的东西,尤其要理解,只有这样,才能真正做出有价值的东西。

二、我们现在做了很多开源软件的评估,对不同软件进行比较,这也是一个很有意义的事情,一个控制风险,二是帮助深刻理解这些后面的算法和限制。我们很多时候拿这个软件,可能都不会去细看,但是实际上这个事情也是十分重要的。

三、最后想从我慢慢走向业务端的经验来讲,我最开始做技术,不断进行技术方面的学习。我逐渐意识到技术是一个核心的东西,但是真正要做好,也需要加入对数据和整个业务的理解。如果有了这些,加上技术,未来在职业发展道路上就会有更广阔的天地。

这是我的简单分享。

关注公众账号

飞马会

往期福利

关注飞马会公众号,回复对应关键词打包下载学习资料;回复“入群”,加入飞马网AI、大数据、项目经理学习群,和优秀的人一起成长!

回复 数字“22”吴恩达新书,教你构建机器学习项目:《Machine Learning Yearning》

回复 数字“24”限时下载 | 132G编程资料:Python、JAVA、C,C++、机器人编程、PLC,入门到精通~

微众税银首席风险官许卫 :AI在金融风控领域的实践应用相关推荐

  1. 微众税银受邀出席2019中国城市信用建设高峰论坛

    2019中国城市信用建设高峰论坛于9月24-25日在济南举办.来自全国31个省区(市)社会信用体系建设的牵头单位.金融机构.大数据机构代表及专家学者汇聚一堂,聚焦"信用,赢未来"这 ...

  2. “联邦对抗技术大赛”9月开战 微众银行呼唤开发者共同“AI创新”

    "联邦对抗技术大赛"9月开战  微众银行呼唤开发者共同"AI创新"   从<第五元素>中的智能系统到<超体>中的信息操控,在科幻电影中人 ...

  3. AI训练营金融风控学习笔记

    本学习笔记为阿里云天池AI训练营金融风控的学习内容,学习链接为:https://tianchi.aliyun.com/notebook-ai/detail?spm=5176.20850282.J_36 ...

  4. 微众银行殷磊:AI+卫星,从上帝视角洞察资产管理|BDTC 2019

    出品 | AI科技大本营(ID:rgznai100) 12月5日-7日,2019中国大数据技术大会(BDTC)于北京隆重举办,大会已成功举办十二届,是大数据领域极具影响力的行业盛会.本届大会汇聚了学术 ...

  5. AI赋能金融风控全场景、轻松实现信贷评分、工程管理和理赔反欺诈!

    风险控制能力是金融业必备的核心竞争力,是银行业务健康可持续发展的关键.随着金融业务的线上化发展,金融的欺诈等行为也呈现出专业化.产业化.隐蔽化.跨区域且进化快的新特点,对传统的风控手段形成极大的挑战. ...

  6. 干货丨AI助力金融风控的趋势与挑战

    作者 | 未央研究 来源 | 未央网 "弱"人工智能时代,为何金融机构的风控需求更加强烈?传统金融企业与内部运营场景如何运用人工智能技术提升运营效率?欺诈攻击的演变呈何种趋势?有哪 ...

  7. AI改变金融风控,深度学习技术可以将坏账降低35% | 干货

    昨天在风控群内,大家都在讨论平安普惠COO的观点,"在放贷领域,只有0和1的概念,要么借要么不借",有人说,0和1的概念肯定不适用于贷款审批,信贷审批是多维评判的,没有不能贷的客户 ...

  8. 微众银行AI团队领衔推动人工智能国际标准的制定

    2月21日,由微众银行主办的IEEE P3652.1(联邦学习基础架构与应用)标准工作组第一次会议在深圳成功召开.微众银行首席人工智能官(CAIO).国际人工智能联合会(IJCAI)理事长杨强教授担任 ...

  9. 46 万奖金等你拿 | 微众银行第二届金融科技高校技术大赛报名中

    听说你是算法界的"最强大脑" 算法调优难不倒! 听说你是班级里的"链圈"极客 产品设计最在行! 那么,机会来了!2020 微众银行第二届金融科技高校技术大赛已经 ...

最新文章

  1. 12-flutter Textfield的使用
  2. 德信创业系2014版
  3. (十七)WebGIS中距离及面积测量的原理和实现以及坐标转换的简单介绍
  4. Cocoa依赖包管理工具
  5. AAAI 2021 | 视频超分中的可变形对齐解读
  6. docker的swarm介绍
  7. HTML DOM 对象简单介绍
  8. 红皮书--SQL语句
  9. r语言实现自相关分析和偏相关分析
  10. 多应用集中落地,四川区块链产业爆发增长
  11. GROMOS力场文件解读手册第5章阅读笔记I
  12. 2022百度春节红包活动 集好运分5亿活动规则
  13. 生物素PEG叠氮,Biotin-PEG-Azide,N3-PEG-Biotin
  14. Arun Murthy谈Apache YARN
  15. (转)一位计算机牛人的心得,谈到计算机和数学,很实用
  16. python常见ubr前缀的使用与作用
  17. Win10系统新建菜单只有文件夹选项的处理方法
  18. 如何获取腾讯视频的MP4播放地址及mp4文件,无需进行qlv转换mp4格式【亲测效果】
  19. 刀具的磨损与破损、刀具寿命及刀具状态监控
  20. 农村宅基地审批管理系统

热门文章

  1. python 期货现货差价监测_数字货币期货现货差价监控
  2. 双非计算机保研北邮经验贴|纯干货(面向平民)
  3. 51单片机控制LCD1602模块
  4. 萨尔大学计算机受限,萨尔大学的申请条件
  5. 城乡规划编制单位资质开通申请
  6. 强化学习笔记(2)深度学习tensorflow2.5以上版本环境安装
  7. 移动宽带连接电信服务器不稳定,移动宽带速度为啥与电信差距那么大?工信部官宣告诉你...
  8. centos8之systemd管理服务开机自启动
  9. NVIDIA apex安装
  10. Convolutional Neural Networks on Graphs with Fast Localized Spectral Filtering 论文阅读