大数据发现银行贷款风险

曾伟1,孔新川2,陈威1,周涛1

1.电子科技大学 2.杭州迈宁数据科技有限公司

doi:10.11959/j.issn.2096-0271.2015024

Uncovering the Risk in Bank Loans by Big Data

最近几年,大数据的商业化应用开始逐步落地[1],其中,金融方面的大数据应用是被投资人最看好的大数据产业化方向,在个人征信、企业征信、客户画像与精准营销等方面都有成熟的应用。例如花旗银行通过挖掘信用卡数据,实现交叉营销。当客户每次刷卡时,银行根据时间、地点以及过往的购物记录,筛选并推送给客户周边商店、餐厅的折扣优惠,从而获得第二次交易价值。富国银行运用大数据识别欺诈行为,通过研究客户之间发生的历史交易,检测是否存在背离常规操作模式的资金异动,通过综合观察多个数据来源,总结出用户典型的交易习惯,实现实时的可疑交易甄别。在国内,许多商业银行也在大数据领域不断地探索和尝试,例如中国银行的“中银沃金融”利用大数据技术,整合电商平台共享数据、征信数据以及客户经理面谈获取的信息,利用授信审批模型实现自动审批。本文介绍大数据在金融风险管理方面的实际案例。对于以银行为代表的金融机构而言,风险管理贯穿它们的全业务过程,越早发现风险越早采取措施,风险管理的成本越低,给金融机构带来的损失越小。

贷款的风险管理对于传统银行业和新兴的互联网金融行业都起着至关重要的作用。不良资产问题长期困扰着国有银行,成为国有银行面临的主要金融风险,直接威胁国有银行的生存和发展。根据银监会对外公开报告,为改善资产质量,我国政府于1999年和2000年为四大国有商业银行分别成立资产管理公司,剥离不良资产1.3万亿元,使其不良贷款比率平均下降10个百分点。但是,进行资产剥离只能缓解已有不良贷款带来的冲击,剥离后的不良贷款比率仍然远高于中国人民银行的监管水平。对于互联网金融企业,尤其是通过P2P或者分期付款等方式,以高息贷款为实质性业务的企业,风险的控制是成败的关键。无论线上有多大流量,每月有多少流水,风险投资有多大规模,如果贷款违约率控制不了,最终都必然走向失败[2]。因此,建立和完善风险管理体系,提高自身的风险管理水平和管理效率,是商业银行和互联网金融企业持续发展的重要基础。

一方面随着贷款客户数量的增多(来源于个人信用贷款和中小微企业贷款数量的增长),传统的人工管理手段(如业务经理管理自己的客户)已经无法满足目前风险管理在成本和效率上的需求;另一方面,银行系统(数据库)中包含了大量的客户交易转账、存款取款、信用卡消费等多个维度的数据,同时随着互联网的普及,客户在互联网(如微信、QQ等)上会产生大量的外部数据,这为大数据在贷款风险管理方面发挥作用提供了基础。目前,越来越多的银行和互联网金融机构开始探索如何利用大数据的方法进行风险预警的工作,并希望建立一个高度自动化、智能化与银行其他系统密切配合的风险预警系统。

电子科技大学和杭州迈宁数据科技有限公司的联合研究小组,基于银行系统中客户的贷款协议信息、交易流水信息等内部信息以及工商局、法院等外部信息来设计风险预警模型。这里主要针对已放贷款进行贷后风险的管理和预警。对于每笔已放贷款,银行会要求客户在每月或者每个季度(视贷款规定的还款间隔而定)规定的还款日期之前还款,若客户在还款日期前没有还款,则该客户为逾期客户(计算入违约率),否则为正常客户。研究小组希望能够利用客户的当前数据,预测其下个月或者下个季度是否为逾期客户。

客户的贷款协议信息包含了每个客户的基本信息,其中包括贷款笔数、贷款金额、还款卡号余额、本月应还金额等;另外,贷款协议信息还包含客户所在的行业类别、注册公司的规模等信息。客户的交易流水信息包含每个客户的交易对手、交易金额和交易时间等基本信息。另外,笔者团队也计算了每个客户每月交易金额的平均值、方差和交易时间间隔、收入和支出比例等,并将这些信息作为客户的特征。

进一步地,通过网络爬虫爬取客户的工商数据、法院诉讼和房产抵押等外部数据。工商数据包含了客户实体企业的注册资金、企业规模、法人代表等信息。法院诉讼数据包含了最近客户是否存在诉讼记录,房产抵押数据包含了客户及配偶的房产信息。将这些外部数据也作为客户的特征。

基于以上数据,利用机器学习的方法对客户进行初筛选。采用了线性回归、Logistic回归、SVM、神经网络、决策树等分类器,将每一个单模型都看作一个弱分类器,然后再进行融合[3,4]。通过集成学习,获得更好的分类效果。进一步地,利用复杂网络方法和时间序列分析技术筛选剩下的客户。不断地迭代以上两个步骤,直到算法达到最优,其整体思路如图1所示。

图1 贷后风险预警模型

以复杂网络方法为例[5],如果有N个违约客户,完全随机抽样N个节点所形成的网络几乎全都是孤立节点或者非常小的连通片,客户之间基本没有资金往来关系。但是所有违约客户形成的网络却要比同规模的随机抽样网络连边密集得多。这说明违约是有网络效应的:一方面金融风险本身具有传递性,客户A如果资金出现问题,无法按时还款,则客户A对应的应付客户有可能因为没有收到A的钱,导致资金链出现问题,从这个意义上讲,如果上一个月AB流入了资金,且上个月A出现了违约或者这个月预测A违约风险很高,都会提高B的预测风险;另一方面,违约还具有社会效应,譬如A违约之后,因为违约额度不高,银行没有及时处理,A就有可能将此消息传播给自己的商业伙伴,从而使得其他人也出现违约的行为。从这个意义上讲,只要AB有资金关系,不管是流入或者流出,鉴于A的违约行为或者高违约风险,也会提高对B的风险预测。把“因为网络效应而产生的违约风险”做成若干个特征,也放入了客户特征库中进行迭代学习。

主要通过两个指标来刻画预测的效果。一是用召回率(recall,可参考参考文献[6])来度量准确性,即预测出来的高风险客户能够包含银行真实违约客户的比例,这个比例越高越好,最高是100%。二是用查找范围,即预测的高风险客户占整个客户总量的比例,在相同准确性的情况下,查找范围越小越好。如图2所示,与合作银行原有的方法相比(基于Logistic回归和其他单一模型的机器学习方法,未进行特征挖掘和特征学习),研究小组采用的方法使准确性从46.7%上升到88.0%。而银行原来的方法把大约20%的客户判断为高风险客户,研究小组采用的方法则只需要筛查11.2%的客户,相比银行传统的方法有了跨越性的提高。

图2 风险模型预测能力对比结果

在中央大力建设信用社会的过程中,中国仍然有很大一段时间是一个信用成本很低的国家,大家不以违约为耻,反以违约不被追究为荣!在这种情况下,以信用为“担保”的针对个人和中小微企业的贷款风险格外大——而这恰好是很多互联网金融企业的主营业务。大数据的方法通过整合内外数据,并引入深度的特征挖掘和大规模的集成学习,有望在信用机制尚未健全的时候,为金融机构的风险管理提供一架高效的“预警机”。

参考文献

[1] Schoenberg V M, Cukier K. 大数据时代:生活、工作、思维的大变革. 盛杨燕, 周涛译. 杭州: 浙江人民出版社, 2013

Schoenberg V M, Cukier K. Big Data: A Revolutionthat Will Transform How We Live, Work, and Think. Translated by Sheng Y Y, ZhouT. Hangzhou: Zhejiang People’s Publishing House, 2013

[2] 李平, 陈林, 李强等.互联网金融的发展与研究综述. 电子科技大学学报, 2015, 44(2): 245~253

Li P, Chen L, Li Q, et al. Review of research and industry development of inter netfinance. Journal of University of Electronic Science and Technology of China,2015, 44(2): 245~253

[3] Friedman J. Greedyfunction approximation: agradient boosting machine. The Annals of Statistics,2001, 29(5): 1189~1232

[4] Ridgeway G. Generalized BoostedModels: A Guide to The GBMPackage, http://cran. r-project.org/web/packages/gbm/vignettes/gbm.pdf, 2007

[5] 汪小帆, 李翔, 陈关荣. 网络科学导论. 北京: 高等教育出版社, 2012

Wang X F, Li X, Chen G R. Network Science: An Introduction.Beijing: Higher Education Press, 2012

[6] Lü L, Zhou T. Linkprediction in complex networks: a survey. Physica A Statistical Mechanics &Its Applications, 2011, 390(6): 1150 ~1170


《大数据》2015年第2期“动态”——大数据发现银行贷款风险相关推荐

  1. 数据可视化 数据可视化看板项目一:(1)模拟实时数据 -使用MYSQL的事件建立动态模拟数据,每秒更新一次 (1)

    需求: 市场人员进行数据可视化产品销售公关时,一定会遇到一个问题,就是客户要求进行展示. 但是我们不可能透露其它客户目前的真实实时更新的数据. 那么这里就要求,创建模拟的秒级别的数据. 方法: 1.使 ...

  2. 【2015年第4期】大数据时代的数据挖掘 —— 从应用的角度看大数据挖掘(下)...

    大数据时代的数据挖掘 -- 从应用的角度看大数据挖掘(下) 李 涛1,2,曾春秋1,2,周武柏1,2,周绮凤3,郑 理1,2 1. 南京邮电大学计算机学院 南京 210023:2. 美国佛罗里达国际大 ...

  3. 【2015年第4期】大数据时代的数据挖掘 —— 从应用的角度看大数据挖掘(上)...

    大数据时代的数据挖掘 -- 从应用的角度看大数据挖掘 李 涛1,2,曾春秋1,2,周武柏1,2,周绮凤3,郑 理1,2 1. 南京邮电大学计算机学院 南京 210023:2. 美国佛罗里达国际大学 迈 ...

  4. 《大数据》2015年第3期“研究”——大数据流式计算:应用特征和技术挑战

    大数据流式计算:应用特征和技术挑战 孙大为 (中国地质大学信息工程学院 北京 100083) 摘要:在大数据时代,数据的时效性日益突出,数据的流式特征更加明显,越来越多的应用场景需要部署在流式计算平台 ...

  5. 《大数据》2015年第3期“网络大数据专题”——基于特征学习的文本大数据内容理解及其发展趋势...

    基于特征学习的文本大数据内容理解及其发展趋势 袁书寒,向 阳,鄂世嘉 (同济大学计算机科学与技术系 上海 201804) 摘要:大数据中蕴含着重要的价值信息,文本大数据作为大数据的重要组成部分,是人类 ...

  6. 《大数据》2015年第3期“网络大数据专题”——网络大数据的文本内容分析

    网络大数据的文本内容分析 程学旗,兰艳艳 (中国科学院计算技术研究所 北京 100019) 摘要:文本内容分析是实现大数据的理解与价值发现的有效手段.尝试从短文本主题建模.单词表达学习和网页排序学习3 ...

  7. 《大数据》2015年第3期“网络大数据专题”——大数据时代的互联网分析引擎...

    大数据时代的互联网分析引擎 窦志成,文继荣 (中国人民大学信息学院大数据管理与分析方法研究北京市重点实验室 北京 100872) 摘要:随着互联网尤其是移动互联网的高速发展,互联网文档的数量.内容的丰 ...

  8. 《大数据》2015年第2期“前沿”——大数据技术发展的十个前沿方向(上)

    大数据技术发展的十个前沿方向(上) 吴甘沙 英特尔中国研究院 doi:10.11959/j.issn.2096-0271.2015023 Ten Fronties for Big Data Techn ...

  9. 《大数据》2015年第2期“研究”——大数据时代的数据传输网

    大数据时代的数据传输网 孙卫强,胡卫生 上海交通大学区域光纤通信网与先进光通信系统国家重点实验室 上海 200240 摘要:大数据时代数据传输需求呈爆炸式增长,如何充分利用数据流的新特征,发挥不同交换 ...

最新文章

  1. 埃隆·马斯克:比特币拥有着“极为出色”的结构,而纸质货币终将消失
  2. Windows10局域网内共享资源(你没有权限访问 或者 账号或者密码错误)
  3. wampserver 403forbidden问题
  4. html给文字加黑色边框,如何给显示文字加一层黑色边框
  5. 电商教父李国庆的另类儒商气质:耿直与真诚
  6. 总算OK了,折磨了好几天
  7. 怎么让电脑速度变快_小科普 | 免费的路由器!用你的电脑开5G热点!
  8. Redis 菜鸟教程学习笔记- Redis 数据结构
  9. exosip2协议栈原理分析以及总结
  10. git 代码行数统计
  11. 小学计算机无生试讲教案,小学数学无生试讲教案(9页)-原创力文档
  12. Easy Data Transform for mac (Excel和CSV编程文件转换工具) v1.11.1激活版
  13. 日历控件CalendarView的使用
  14. 自用大智慧策略l2支持行情
  15. 大三了#我的两年编程生活
  16. 关于ffmpeg如何下载、安装和使用
  17. 【ArcGIS教程】专题图制作之人口地图——湖北省人口密度分析
  18. 使用uniapp开发社区交友网站的项目教程
  19. Go实现简单的TCP服务端客户端通信(有黏包)
  20. 《白帽子讲web安全》读书笔记_2021年7月16日(2)_第3篇 服务器端应用安全

热门文章

  1. thinkPHP 数据库操作和分页类
  2. Python - 装饰器
  3. Linux查看进程并重启服务命令
  4. phpcms文件所需权限
  5. 多态的概念,特点与使用
  6. Hello,Behavior
  7. windows-server-2012R2离线中文语言包安装
  8. MongoDB无法注册windows服务问题解决 Error connecting to the Service Control Manager: 拒绝访问 Mongodb M
  9. mapperscan注解_SpringBoot 遗忘后的简单快速回忆之环境搭建与常见注解
  10. 小波包能量matlab,小波包分析和小波包能量介绍.doc