阿里妹导读:人生充满意外和不确定性,保险的使命,就是给人以安全感。风控是保险业务正常发展的重要环节,成长于互联网环境下的保险风控更为重要。

今天,阿里工程师正在利用跨平台体系下的海量数据资源和智能风控模型,优化保险风控,提升保险业务整体风控能力,让保险更好帮助人们对抗风险,减少后顾之忧。


保险风控的背景以及挑战


商业保险是一种用于保障未来的商业行为。除了我们常见的车险、财产险、健康险等传统保险以外,运费险、账户安全险等在互联网环境下应运而生。风控是保险业务正常发展的重要环节,成长于互联网环境下的保险风控更为重要,其中保险风控主要有两个重要部分:


  • 核保/准入:判断是否承保,如何承保的过程,精准的准入能力对于骗保风险防控有非常重要意义,尤其是冷启动阶段

  • 核赔:判断理赔是否符合保险保障条款,是防控骗保的核心手段之一


受到有限的数据、大规模计算平台缺乏等原因,传统保险公司只能基于有限的特征(如年龄、性别、出险情况),结合经验提炼出来一些简单规则(当然,有些公司尝试使用LR等方法建模)去辅助保险员的核保、核赔工作。


支付宝以及淘宝体系下的数据的积累,给我们提供了更好的资源来做风控,从中可以挖掘出用户的消费习惯、社会关系、经济能力等多维度深层次信息,一定程度上可以反映出用户的骗保概率、出险概率,用于甄别用户骗保行为。我们希望能够利用跨平台体系下的海量数据资源和智能风控模型,优化保险风控这两个重要环节,提升保险业务整体风控能力。


值得注意的是,在构建保险场景下的风控模型,以下两个重要的问题需要考虑:


  • 可解释性:对于保险领域的模型来说,特别是风控模型,模型的可解释型是一个重中之重。

  • 团伙性:大部分的骗保行为都是团伙行为。个体行为可能不明显或者容易伪装,但是潜在团伙关系是很难被完全掩饰的。如何挖掘图上的潜在信息,挖掘出团伙对甄别骗保行为有很大的帮助。

本文依托于超大规模机器学习框架参数服务器PS[1]开发的FastRep图算法和PS-SMART算法,并通过特征工程精细化账号行为属性等,最终在X产品的两个重要场景准入和核赔上上线,大大减少了骗保案件。


风控背景


以X产品风控为例:1.量化投保人不履约责任的风险概率,从而判断最优的承包人员群体,即准入模型;2.量化理赔申请的骗保风险概率,从而防止骗保带来的资损,即核赔模型。因为考虑到保险场景要求的强解释性,我们算法的主体选用了PS-SMART(PS-SMART是基于PS实现的分布式GBDT)。GBDT作为一个非线性分类器,其的优势在于模型的强解释性,鲁棒性高,并能很好的处理建模使用的特征里的稀疏,缺省,连续数值等。


我们提取了一些业务特征,同时引入图算法来学习理赔涉及到的关系网络信息。不同时间粒度下的离线特征是通过ODPS定时任务周期性生成,与行为相关的实时特征是通过特征中台生成。


准入模型


准入模型的业务目标在通过模型预测用户的ROI,基于用户的特征、行为等属性,我们使用PS-SMART训练了多版GBDT模型。GBDT是非常成熟的一类算法,这里就不赘述原理。


模型效果


前后我们上线过两版模型,在产品赔付率下降的情况下,预测目标的保费翻了四倍。


准入模型的价值是用算法的视角,更精准的预估了用户的ROI。从而业务决策上将会调整不同的ROI结果的人群准入策略,从而保证整体的保费收入增长。


核赔模型


核赔模型的目标是去判定每一笔理赔是否骗保。因为是事件级别,所以除了把用户特征引入PS-SMART训练GBDT模型以外,还引入了行为特征、关系特征等更多数据。核赔模型的建模需要了解骗保行为本身,因此我们基于参数服务器(PS)框架下的FastRep算法来学习用户的embeddding来刻画理赔中投保人和被保险人所涉及到的关系特征。从后面的模型效果显示,关系网络的embedding的加入后,能提高模型头部的召回。另外,目前FastRep算法可以支持十亿量级节点图的计算,对于大数据量级的模型产出效率是非常重要。


算法原理


FastRep算法是一种基于图关系的数据表征算法,该算法为无监督算法,利用PS分布式框架能快速地生成每个图节点的embedding向量。这些embedding向量能较好的反映节点在网络中的特征。FastRep算法主要包括随机游走算法和word2vec算法两个部分。

基于PS框架的随机游走算法(random walk)算法:


随机游走(random walk)是图计算中的一个基础算法。其核心思想:针对一个构建好的图(网络),随机地选择一个结点,记作X1,然后随机的从X1的邻接结点选择一个,记作X2,类似的,不断的选择出来X3,X4等等。由于PS在处理超大数据规模上的处理速度、容错性有较大的优势,因此我们在PS框架下开发了随机游走(random walk)算法。和传统的随机游走算法相比,我们的PS版本的随机游走算法的特点和优势:


  1. 在server和worker上分别保存整个图的信息。在server端保留全局图信息的好处是当有worker挂机时,PS的failover机制能较快的重启一台机器,并将server的信息同步到worker上。

  2. 在worker上保存全局图信息的好处是每个worker独立批量产生相应的随机序列,并且流式输出到ODPS表中。由于每个worker都保存着全局图信息,生成相应序列并不需要访问其他数据,减少了依赖性和网络带宽,极大地提高了效率和并行化。

基于PS框架的word2vec算法:


利用随机游走算法产生相应的序列后,我们采用word2vec算法来生成相应的embedding数据。大家都很熟悉传统的单机版word2vec算法,为了解决超大规模数据的word2vec算法,我们开发了基于PS框架的word2vec算法。和传统单机版word2vec算法相比,我们做了以下改进:


  1. worker端并不存储整个模型,它仅仅存储它读入数据中需要的embedding。当模型更新时,仅仅更新局部节点的embedding。这样减少了worker的内存和传输网络带宽。

  2. worker端读取数据时,并不是全部读入整个数据,而是读入部分数据分片。这样能大大减少worker的内存和存储资源。

  3. 引入category sample方法,使得负样本采样更加贴近词的权重。计算下一次的负样本采样的数据时,将cpu计算和网络传输异步进行,进一步提高cpu和网络带宽的使用效率。


模型效果


FastRep算法效果


我们从两个角度研究了FastRep在这个场景下的效果,如图1我们可视化了某一天测试集关系网络向量表示,我们发现该方法对于骗保事件和正常事件是有较强的区分度的(蓝色是正常事件,红色是涉及骗保的事件)。

图1 理赔事件embedding可视化


图2可视化了同一天事件涉及到的用户向量表示,骗保一定程度上也是可以通过此法识别出来,另外我们通过实际数据研究了图中圈出来case,发现了一组存在中介关系的骗保团伙,而这种多度关系的识别在普通方法上是很难识别出来。


图2 用户embedding可视化


模型离线效果:


在测试集上,准确率提升的基础上,覆盖率上涨了5倍。


模型在线效果:


目前我们部署上线了模型,此模型和规则等组合上线之后我们可以看出来线上识别风险的能力大幅度提高,日均骗保案件量降幅76%。


总结


这次的项目是蚂蚁保险数据部和人工智能团队一次成功探索尝试,利用AI新技术提升整体风控能力,未来,我们将继续探索更多场景的能力提升。

我们在等你!


如果,你想感受互联网时代的大潮!

如果,你想成为互联网金融的弄潮儿!

如果,你想成为大数据的摸金校尉!

来这里就对了!

蚂蚁金服保险事业部数据组常年招聘各类算法、数据挖掘、数据分析等方向人才。欢迎砸简历:insdata_jobapp@list.alibaba-inc.com,一起致力于互联网保险的数据能力建设,if not now,when! If not you, who!

同时蚂蚁金服人工智能部分布式学习和系统组也常年招各种算法相关人才,同样欢迎砸简历!

参考文献

[1]Jun Zhou, Xiaolong Li, Peilin Zhao, Chaochao Chen, Longfei Li, Xinxing Yang,Qing Cui, Jin Yu, Xu Chen, Yi Ding, and Yuan Alan Qi. KunPeng: Parameter Server Based Distributed Learning Systems and Its Applications in Alibaba and Ant Financial. KDD 2017. 1693-1702.


你可能还喜欢

点击下方图片即可阅读


阿里再开源!基于JAVA的模块化开发框架JarsLink



知识图谱数据构建的“硬骨头”,

阿里工程师如何拿下?



如何用架构师思维解读区块链技术?



关注「阿里技术」

把握前沿技术脉搏

如何用AI算法识别骗保行为?蚂蚁保险智能风控模型首次公开!相关推荐

  1. 拿来就能用!如何用 AI 算法提高安全运维效率? | 技术头条

    作者 | 黄龙 责编 | 伍杏玲 出品 | CSDN(ID:CSDNnews) 在整个安全工作中,安全运维是不可或缺的一环,其目的是保证各项安全工作持续有效地运作.除了对外的沟通和业务对接相关工作,大 ...

  2. 拿来就能用!如何用 AI 算法提高安全运维效率?

    作者 | 黄龙 责编 | 伍杏玲 来源 | CSDN(ID:CSDNnews) 在整个安全工作中,安全运维是不可或缺的一环,其目的是保证各项安全工作持续有效地运作.除了对外的沟通和业务对接相关工作,大 ...

  3. 工厂仪表定时拍照智能AI算法识别内网部署方案

    本方案共分为4层架构.最底层现场仪表是工厂已经有的,正常使用且需要采集示数的仪表. 第二层,拍照摄像头是专用的定时抓拍摄像头,针对恶劣工业环境而设计,可以定时拍照,并将图片上传到指定的FTP服务器,在 ...

  4. AI 算法是如何改变智能风控的 | 文末赠书

    来源 | 现代金融风险管理 作者 | 祝世虎 成学军 头图 | 下载于 ICphoto 在金融科技的浪潮下,金融机构纷纷启动了智能风控体系的建设,但是金融机构的关注点多在于业务规模.科技系统等硬实力的 ...

  5. RK3568-USB摄像头实时AI物品识别

    RK3568具有1TOPS算力的NPU,可以在板子上进行AI计算.飞凌OK3568板子资料中自带了一些AI识别的例子,但只是对一张图片进行识别,且需要单独使用图片查看工具查看识别结果. 为了更直观的体 ...

  6. 50+企业合作入驻、1000+算法,钛灵AI算法市场的进阶之路

    全球市场洞察公司(Global Market Insights)报告显示,2019年 AI芯片市场规模超过80亿美元,预计到2026年增长至700亿美元.AI芯片对应AI算法的需求比例约为1:1~1: ...

  7. 墨奇科技汤林鹏:如何用 AI 技术颠覆指纹识别?

    受访者 | 墨奇科技联合创始人& CTO 汤林鹏 记者 | Aholiab,编辑 | Carol 出品 | AI科技大本营(ID:rgznai100) 随着深度学习等AI技术的成熟,生物识别成 ...

  8. 用算法识别水流模式,AI探测到962起污水泄漏事件

    来源:大数据文摘本文约1500字,建议阅读6分钟人工智能技术如何发挥作用? 研究人员表示,人工智能技术检测到了数百起未处理污水直接排放入英国河流的事件. 科学家们利用机器学习技术,从两处污水处理设施超 ...

  9. python算法教程百度云_如何用免费GPU学习AI算法?这篇算法资源大集锦别错过

    飞桨开发者投稿 上一次写了篇薅GPU百度AI Studio计算资源的文章,收到很多AI算法初学者私信,问我能不能补充一些AI Studio的学习资源.有求必应向来是我的风格,于是我加入了AI Stud ...

最新文章

  1. 机架式服务器怎么和显示屏连接,图解机架式服务器的机箱和电源
  2. [机器学习] XGBoost参数调优完全指南(附Python代码)
  3. 都说Python库千千万,这几个你认识不?
  4. 开源ckplayer 网页播放器, 跨平台(html5, mobile),flv, f4v, mp4, rtmp协议. webm, ogg, m3u8 !...
  5. Structure from Motion 资料总结
  6. 面向对象设计原则之2-开放闭合原则
  7. fusion按照多个centos,设置静态ip
  8. RocketMQ(九)—Queue分配算法
  9. 16 年前,Google 为何花 5000 万美元买下 Android?
  10. Qt qml listview刷新
  11. 使用阿里云镜像加速器--docker
  12. 图解谷歌浏览器Chrome的Logo_longware_新浪博客
  13. Excel-每隔几行进行转置一次
  14. 图像转PDF的问题、方法及题外话
  15. 【C语言】规范掌握C语言函数|数组名的妙用|指针快速入门|综合使用小案例
  16. Git 代码版本管理工具详解 进厂必备
  17. 为知笔记有linux版本吗,为知笔记linux版本
  18. 关于仓储规划的内容,太全了!忍不住收藏(干货)
  19. 不小心把u盘文件删了怎么恢复
  20. 计算机知识都有什么作用,计算机主要功能是什么

热门文章

  1. 在巨大的体量面前 华为是如何保持高效的战斗力的?
  2. 基于KPCA 和 STFT 非侵入式负荷监控(Matlab代码实现)
  3. 知乎移动端动态化方案 :Morph
  4. opencv QImage与Mat 互转 及简单的图像处理
  5. Elasticsearch:shard 分配感知
  6. centos7parted分区_Linux-centos7超过2TB使用parted命令分区
  7. TOP100summit:【分享实录-QQ空间】10亿级直播背后的技术优化 1
  8. 互联网四大「天坑」:社交、短视频、搜索、教育谁更难?
  9. 日期计算:输入某年某月某日,判断这一天是这一年的第几天?
  10. 气动调节阀的安装细节以及技巧