前言:依赖于大数据和人工智能的发展,金融行业的发展也是得到了蓬勃发展,互联网金融下的风控问题也逐渐成为了焦点。下面先先介绍一下前储知识,重点阐述一下互联网中常用的九种维度的金融数据。

—————— 参考以下博客:https://blog.csdn.net/liberty_xm/article/details/53183648

大数据能够进行数据变现的商业模式目前就是两个,一个是精准营销,典型的场景就是商品推荐和精准广告投放;另一个就是大数据风控,典型的场景是互联网金融的大数据风控。

金融的本质是风险管理,风控是所有金融业务的核心。典型的金融借贷业务例如抵押贷款、消费贷款、P2P、供应链金融、以及票据融资都需要数据风控欺诈用户及评估用户信用等级。

传统的金融风控主要利用了信用属性强大的金融数据,一般采用20个纬度左右的数据,利用评分来识别客户的还款能力和还款意愿。信用相关程度强的数据维度10个左右,包括:

年龄、职业、收入、学历、工作单位、借贷情况、房产、汽车、单位、还贷记录等,金融企业参考用户提交的信息和从外部获取的数据进行信用评分的构建,对每个申请人打一个信用评分分数,依据该信用评分分数来决定是否贷款以及贷款额度[互金涉及:期次、利率、额度]。其他同信用相关的数据还有区域、产品、理财方式、行业、缴款方式、缴款记录、金额、时间、频率等。

互联网金融的大数据风控并不是完全改变传统风控的数据来源和方法,实际是丰富传统金融风控的数据纬度。互联网金融风控中,首先还是利用信用属性强的金融数据,判断借款人的还款能力和还款意愿,然后再利用信用属性稍弱的行为数据进行补充,一般是利用数据的关联分析来判断借款人的信用情况,借助数据模型来揭示某些行为特征和信用风险之间的关系。AND 互联网金融公司利用大数据进行风控时,都是利用多维度数据来识别借款人风险。同信用相关的数据越多地被用于借款人风险评估(信用数据丰富),借款人的信用风险就被揭示的更充分,信用评分就会更加客观,接近借款人的实际风险。常用的互联网金融数据风控有以下的九种数据维度来判断借款人的风险情况:[这种数据随着技术的沉淀和人工智能大数据的发展,会越来越丰富]

1. 验证借款人身份的五因素:姓名、手机号、身份证号、银行卡号、家庭地址

2.分析用户提交的信息来识别是否欺诈

3.分析客户线上申请行为来识别欺诈:可参考用户填写每一板块信息的时长,检验是否是由预谋欺诈

4.利用黑名单和灰名单识别风险:黑名单[来源于各大借贷平台的催收体系中的部分名单],灰名单:逾期少于90天,未到不良

5.利用移动设备数据俩识别欺诈:可参考移动设备上的app情况

6.利用消费记录来进行评分:可参考用户的消费数据,不能仅仅看用户的收入等信息,如家庭主妇

7.参考社会关系来评估信用情况:物以类聚、人以群分。信用不好的人,其朋友可能信用不太好,可以初步筛选然后进一步核实

8.参考借款人社会属性和行为来评估信用:

9.利用司法信息评估风险:

1验证借款人身份

验证借款人身份的五因素认证是姓名、手机号、身份证号、银行卡号、家庭地址。企业可以借助国政通的数据来验证姓名、身份证号,借助银联数据来验证银行卡号和姓名,利用运营商数据来验证手机号、姓名、身份证号、家庭住址。

如果借款人是欺诈用户,这五个信息都可以买到。这个时候就需要进行人脸识别了,人脸识别等原理是调用国政通/公安局API接口,将申请人实时拍摄的照片/视频同客户预留在公安的身份证进行识别,通过人脸识别技术验证申请人是否是借款人本人。

其他的验证客户的方式包括让客户出示其他银行的信用卡及刷卡记录,或者验证客户的学历证书和身份认证。

2分析提交的信息来识别欺诈

大部分的贷款申请都从线下移到了线上,特别是在互联网金融领域,消费贷和学生贷都是以线上申请为主的。

线上申请时,申请人会按照贷款公司的要求填写多维度信息例如户籍地址,居住地址,工作单位,单位电话,单位名称等。如果是欺诈用户,其填写的信息往往会出现一些规律,企业可根据异常填写记录来识别欺诈。例如填写不同城市居住小区名字相同、填写的不同城市,不同单位的电话相同、不同单位的地址街道相同、单位名称相同、甚至居住的楼层和号码都相同。还有一些填写假的小区、地址和单位名称以及电话等。

如果企业发现一些重复的信息和电话号码,申请人欺诈的可能性就会很高。

3分析客户线上申请行为来识别欺诈

欺诈用户往往事先准备好用户基本信息,在申请过程中,快速进行填写,批量作业,在多家网站进行申请,通过提高申请量来获得更多的贷款。

企业可以借助于SDK或JS来采集申请人在各个环节的行为,计算客户阅读条款的时间,填写信息的时间,申请贷款的时间等,如果这些申请时间大大小于正常客户申请时间,例如填写地址信息小于2秒,阅读条款少于3秒钟,申请贷款低于20秒等。用户申请的时间也很关键,一般晚上11点以后申请贷款的申请人,欺诈比例和违约比例较高。

这些异常申请行为可能揭示申请人具有欺诈倾向,企业可以结合其他的信息来判断客户是否为欺诈用户。

4利用黑名单和灰名单识别风险

互联网金融公司面临的主要风险为恶意欺诈,70%左右的信贷损失来源于申请人的恶意欺诈。客户逾期或者违约贷款中至少有30%左右可以收回,另外的一些可以通过催收公司进行催收,M2逾期的回收率在20%左右。

市场上有近百家的公司从事个人征信相关工作,其主要的商业模式是反欺诈识别,灰名单识别,以及客户征信评分。反欺诈识别中,重要的一个参考就是黑名单,市场上领先的大数据风控公司拥有将近1000万左右的黑名单,大部分黑名单是过去十多年积累下来的老赖名单,真正有价值的黑名单在两百万左右。

黑名单来源于民间借贷、线上P2P、信用卡公司、小额借贷等公司的历史违约用户,其中很大一部分不再有借贷行为,参考价值有限。另外一个主要来源是催收公司,催收的成功率一般小于于30%(M3以上的),会产生很多黑名单。

灰名单是逾期但是还没有达到违约的客户(逾期少于3个月的客户),灰名单也还意味着多头借贷,申请人在多个贷款平台进行借贷。总借款数目远远超过其还款能力。

黑名单和灰名单是很好的风控方式,但是各个征信公司所拥有的名单仅仅是市场总量的一部分,很多互联网金融公司不得不接入多个风控公司,来获得更多的黑名单来提高查得率。央行和上海经信委正在联合多家互联网金融公司建立统一的黑名单平台,但是很多互联网金融公司都不太愿意贡献自家的黑名单,这些黑名单是用真金白银换来的教训。另外如果让外界知道了自家平台黑名单的数量,会影响其公司声誉,降低公司估值,并令投资者质疑其平台的风控水平。

5利用移动设备数据识别欺诈

行为数据中一个比较特殊的就是移动设备数据反欺诈,公司可以利用移动设备的位置信息来验证客户提交的工作地和生活地是否真实,另外来可以根据设备安装的应用活跃来识别多头借贷风险。

欺诈用户一般会使用模拟器进行贷款申请,移动大数据可以识别出贷款人是否使用模拟器。欺诈用户也有一些典型特征,例如很多设备聚集在一个区域,一起申请贷款。欺诈设备不安装生活和工具用App,仅仅安装和贷款有关的App,可能还安装了一些密码破译软件或者其他的恶意软件。

欺诈用户还有可能不停更换SIM卡和手机,利用SIM卡和手机绑定时间和频次可以识别出部分欺诈用户。另外欺诈用户也会购买一些已经淘汰的手机,其机器上面的操作系统已经过时很久,所安装的App版本都很旧。这些特征可以识别出一些欺诈用户。

6利用消费记录来进行评分

大数据风控除了可以识别出坏人,还可以评估贷款人的还款能力。过去传统金融依据借款人的收入来判断其还款能力,但是有些客户拥有工资以外的收入,例如投资收入、顾问咨询收入等。另外一些客户可能从父母、伴侣、朋友那里获得其他的财政支持,拥有较高的支付能力。

按照传统金融的做法,在家不工作照顾家庭的主妇可能还款能力较弱。无法给其提供贷款,但是其丈夫收入很高,家庭日常支出由其太太做主。这种情况,就需要消费数据来证明其还款能力了。

常用的消费记录由银行卡消费、电商购物、公共事业费记录、大宗商品消费等。还可以参考航空记录、手机话费、特殊会员消费等方式。例如头等舱乘坐次数,物业费高低、高尔夫球俱乐部消费,游艇俱乐部会员费用,奢侈品会员,豪车4S店消费记录等消费数据可以作为其信用评分重要参考。

互联网金融的主要客户是屌丝,其电商消费记录、旅游消费记录、以及加油消费记录都可以作为评估其信用的依据。有的互联金融公司专门从事个人电商消费数据分析,只要客户授权其登陆电商网站,其可以借助于工具将客户历史消费数据全部抓取并进行汇总和评分。

7参考社会关系来评估信用情况

物以类聚,人与群分。一般情况下,信用好的人,他的朋友信用也很好。信用不好的人,他的朋友的信用分也很低,

参考借款人常联系的朋友信用评分可以评价借款人的信用情况,一般会采用经常打电话的朋友作为样本,评估经常联系的几个人(不超过6六个人)的信用评分,去掉一个最高分,去掉一个最低分,取其中的平均值来判断借款人的信用。这种方式挑战很大,只是依靠手机号码来判断个人信用可信度不高。一般仅仅用于反欺诈识别,利用其经常通话的手机号在黑名单库里面进行匹配,如果命中,则此申请人的风险较高,需要进一步进行调查。

8参考借款人社会属性和行为来评估信用

参考过去互联网金融风控的经验发现,拥有伴侣和子女的借款人,其贷款违约率较低;年龄大的人比年龄低的人贷款违约率要高,其中50岁左右的贷款人违约率最高,30岁左右的人违约率最低。贷款用于家庭消费和教育的贷款人,其贷款违约率低;声明月收入超过3万的人比声明月收入低于1万5千的人贷款违约率高;贷款次数多的人,其贷款违约率低于第一次贷款的人。

经常不交公共事业费和物业费的人,其贷款违约率较高。经常换工作,收入不稳定的人贷款违约率较高。经常参加社会公益活动的人,成为各种组织会员的人,其贷款违约率低。经常更换手机号码的人贷款违约率比一直使用一个电话号码的人高很多。

午夜经常上网,很晚发微博,生活不规律,经常在各个城市跑的申请人,其带贷款违约率比其他人高30%。刻意隐瞒自己过去经历和联系方式,填写简单信息的人,比信息填写丰富的人违约概率高20%。借款时间长的人比借款时间短短人,逾期和违约概率高20%左右。拥有汽车的贷款人比没有汽车的贷款人,贷款违约率低10%左右。

9利用司法信息评估风险

涉毒涉赌以及涉嫌治安处罚的人,其信用情况不是太好,特别是涉赌和涉毒人员,这些人是高风险人群,一旦获得贷款,其贷款用途不可控,贷款有可能不会得到偿还。

寻找这些涉毒涉赌的嫌疑人,可以利用当地的公安数据,但是难度较大。也可以采用移动设备的位置信息来进行一定程度的识别。如果设备经常在半夜出现在赌博场所或赌博区域例如澳门,其申请人涉赌的风险就较高。另外中国有些特定的地区,当地的有一部分人群从事涉赌或涉赌行业,一旦申请人填写的居住地址或者移动设备位置信息涉及这些区域,也要引起重视。涉赌和涉毒的人员工作一般也不太稳定或者没有固定工作收入,如果申请人经常换工作或者经常在某一个阶段没有收入,这种情况需要引起重视。涉赌和涉毒的人活动规律比较特殊,经常半夜在外面活动,另外也经常住本地宾馆,这些信息都可以参考移动大数据进行识别。

总之,互联网金融的大数据风控采用了用户社会行为和社会属性数据,在一定程度上补充了传统风控数据维度不足的缺点,能够更加全面识别出欺诈客户,评价客户的风险水平。互联网金融企业通过分析申请人的社会行为数据来控制信用风险,将资金借给合格贷款人,保证资金的安全。

用于风控模型的九种数据维度(常用的金融数据)相关推荐

  1. 大数据工程师常用的大数据BI工具是什么?

    大数据工程师常用的大数据BI工具是什么? [导语]目前,无论是大企业还是小企业,都面临着数字化转型的挑战.如何在大数据中获得更好地洞察力,有效改善用户体验,同时达到优化生产力的效果,这时候进行数据分析 ...

  2. 独家 | 将时间信息编码用于机器学习模型的三种编码时间信息作为特征的三种方法...

    作者:Eryk Lewinson 翻译:汪桉旭 校对:zrx本文约4400字,建议阅读5分钟 本文研究了三种使用日期相关的信息如何创造有意义特征的方法. 标签:时间帧,机器学习,Python,技术演示 ...

  3. 讨论UML概念和模型UML九种图。

    文件夹: UML的视图 UML的九种图 UML中类间的关系 上文我们介绍了,UML的视图.在每一种视图中都包括一个或多种图. 本文我们重点解说UML每种图的细节问题: 1.用例图(use case d ...

  4. 什么是大数据?常用的大数据框架

    1.什么是大数据? 在互联网技术发展到现今阶段,大量日常.工作等事务产生的数据都已经信息化,人类产生的数据量相比以前有了爆炸式的增长,以前的传统的数据处理技术已经无法胜任,需求催生技术,一套用来处理海 ...

  5. python处理金融数据_Python 数据分析中金融数据的来源库和简单操作

    金融数据 数据分析离不开数据的获取,这里介绍几种常用的获取金融方面数据的方法. pandas-datareader pandas-datareader 库包含了全球最著名的几家公司所整理的金融数据,这 ...

  6. linux列表去重复数据,Linux常用去除重复数据口令

    一.uniq干什么用的 文本中的重复行,基本上不是我们所要的,所以就要去除掉.linux下有其他命令可以去除重复行,但是我觉得uniq还是比较方便的一个.使用uniq的时候要注意以下二点 1,对文本操 ...

  7. 爬虫数据executemany插入_金融数据的获取——一个爬虫的简单例子

    对量化投资策略进行研究,第一步就是获取我们需要的数据.使用历史数据能够对策略进行回测,以验证策略的有效性和可信性.另一方面,量化投资本身也是一种对数据的研究,因此它也必须遵循数据分析的相关步骤.作为一 ...

  8. 大数据---(3)金融数据架构

    金融机构将数据分为第一数据平面和第二数据平面,第一数据平面主要基于原有的金融IT平台,以交易为中心,支撑传统的金融数据处理与分析业务.第二数据平面则是以大数据平台为核心的信件数据平面,除妖处理金融数据 ...

  9. matlab 获取雅虎数据,pandas获取雅虎金融数据

    pandas.jpg 首先,强烈推荐关注Dr. Fish, 每篇文章都很有深度.因为受到她<用Python浅析股票数据>文章的启发,所以分享下最近几天学习获取股票交易历史数据的总结. 首先 ...

最新文章

  1. Android Binder概述
  2. 关于WeX5的初步学习
  3. 简易计算机单片机编程思路,到底以什么单片机入门?一些单片机简单的学习方法...
  4. golang mysql单元测试_golang test测试使用
  5. java解析XML获取城市代码
  6. ORACLE同义词源库锁表导致目标库删除操作报ora 02055 02049 02063 06512
  7. 实现cookie跨域
  8. 变频器按启动没反应_起重机软启动柜晶闸管损坏维修几大故障
  9. 【note】PAT甲级题目中的单词整理
  10. Linux:shell变量功能和Bash shell的操作环境
  11. Java_8排序(冒泡排序和选择排序)
  12. WM_NOTIFY的使用
  13. 思科ccna教材_什么是CCNA或Cisco认证网络助理?
  14. 更新力度真的厉害,国产linux操作系统深度中文商店应用更新记录汇总(2021-07)
  15. 人大金仓数据库迁移步骤
  16. 验证整数和小数的正则表达式
  17. mysql phpwind_PhpWind教程:快速修复损坏的MySQL数据库
  18. 二分查找及时间复杂度
  19. ros中设置Global Options,以及rqt_tf_tree树讲解,TF树的理解,使用GUI插件,用于可视化ROS-TF的框架树
  20. Android小窗口模式,picture-in-picture(PIP画中画)的使用

热门文章

  1. 基于Unity3D的自动寻路车辆模拟
  2. 痞子衡嵌入式:串口调试工具Jays-PyCOM诞生记(4)- 联合调试(vspd, sscom, PyCharm2018.2)...
  3. 用 Delphi 学设计模式(一) 之 简单工厂篇
  4. python 使用sql查询数据库返回空集判断
  5. 【实习_面试全程辅导分享】简历篇
  6. 金蝶采购模块退货业务标准流程
  7. 没有网能使用mysql吗_就用本地数据库;即使在没有联网的电脑上也可以放心使用...
  8. wms地图绘制工具_WMS/WMTS
  9. matlab东大教授_辽宁省普通高等学校本科教学管理平台
  10. 一个著名的任务调度系统是怎么设计的?(转自码农翻身)