一、分析背景和目的

拍拍贷成立于2007年6月,总部位于国际金融中心上海,是中国第一家网络信用借贷平台。与国内其他P2P平台相比,拍拍贷的最大特点在于采用纯线上模式运作,平台本身不参与借款,而是实施信息匹配、工具支持和服务等功能,借款人的借款利率在最高利率限制下,由自己设定。而这也是P2P网贷平台最原始的运作模式。

随着多年的经验积累,拍拍贷不管是在贷款总额上还是在风控方面都有所提高,而且目前基于大数据分析的风控体系表现良好。基于此,本文选取了部分拍拍贷真实业务数据作为样本,利用SQL进行相关的数据分析,通过此次分析了解当前金融行业的相关业务信息并检验SQL学习成果。

二、分析思路

1、本次对拍拍贷数据进行逾期分析,将解决以下几个业务问题:

(1)贷款产品类型有哪些?各种产品及其逾期情况表现如何

(2)贷款金额、期限、利率表现如何?与逾期率之间是否存在着某种关系?

(3)客户年龄、性别、初始评级分别与客户逾期的关系如何?

(4)客户各项认证情况如何?认证情况与逾期情况的关系如何?

(5)所有客户中新老客户构成及其逾期情况如何?老客户历史逾期情况与当前逾期的关系如何?
2、分析思路——思维导图

三、分析内容

3.1 理解数据

本文所选取数据为拍拍贷真实业务数据,包含了成交时间从2015年1月1日到2017年1月30日的一部分数据作为分析样本,数据文件为LCIS,共有37个字段, 292539条记录。其下载地址为:
https://www.kesci.com/home/dataset/58c614aab84b2c48165a262d
数据集所有字段信息如下

3.2 数据清洗

(1) 选择子集
选择子集,并保存至新的表lcis2

(2) 列表重命名

(3) 检查异常值及重复数据,删除异常值和重复数据

如果从客户编号单一维度来说,有大量的重复数据,但是由于大部分重复数据也许是因为客户有多次贷款记录,故不能简单粗暴的进行删除。我们可以通过对时间进行分组,再进行计数来统计重复数据以及异常值


通过以上SQL查询可以得知,有部分记录日期是异常数据,占比非常小,仅0.4%,在后续分析过程中可将其直接删除。另外记录日期为2016-09-30存在106条重复数据,在后续过程中也可以用去重手段将其直接删除。
去除重复数据,将结果保存至表lcis3中

检查LCIS3表是否还存在重复数据,如下所示,表示已经无重复数据了。

(4) 缺失值处理

检查各数据是否存在缺失值

对其他的各个字段也进行上述的查询,发现并无缺失值。

(5) 一致化处理

将标当前状态更改为逾期和未逾期两种,并保存至表lcisnew 当中

(6) 数据排序

数据编号和记录日期并无特定规律,故不对该数据集进行排序,仅在分析过程中针对各分析目的进行适当的排序。

3.3 分析内容

·贷款产品类型有哪些?不同产品的借款客户数及其逾期情况如何?


小结:产品类型主要包含五种——普通、其他、APP闪电、电商、应收安全标,其中普通、其他、APP闪电这三种产品为主要产品类型,其客户数量占98%以上。另外,各种主要产品的逾期率差距不大,但应收安全标的逾期率是最低的,电商的客户数不多,但逾期率却有3.24%,这是值得关注的。
·借款总额及平均借款金额


小结:从上图可看出,除去2015年第四季度,其他季度的借款总额存在着季节性规律,而人均借款金额则随着时间的推移而逐渐降低。而人均借款金额则表现为下降趋势,最后维持在5000的水平波动。
问题——为什么2015年Q4数据会异常呢?是真实数据本身就这样,还是数据存在异常?
下面,我们就这个问题进行探讨,首先,我们先看看客户总数随着季度如何变化。
结论:从上图的结果我们可以看出,2015Q4的客户数只有300人次,与其他季度的上万人次的客户数来说是明显异常的,另外公司一般对每个季度都有计划业务量要达多少,且每个季度的业绩任务都应该是比较平均或逐渐提升的,按照正常预测2015Q4的客户总数应该是2015Q3/2015Q22015Q3=34296,而且用34296作为2015Q4的客户数再预测2016Q1的数据,则有2015Q4/2015Q32015Q4=42670,与实际数据42470是非常接近的,所以综合判断,数据集中2015Q4的数据应该是有误的,所以在此次分析中建议忽略2015Q4的数据,以下指标或者维度涉及到2015Q4数据的也建议是忽略,以保证各项分析的一致性。
·不同借款金额的客户数量及逾期率


小结:借款金额主要集中在1000-10000之间,其中3000-5000的借款客户人数最多,其次是5000-10000。而1000-10000范围的借款客户其逾期率相对来说是较低的,在3%左右的水平,而1000以下的借款客户逾期率最高,达到了4.5%以上,是值得关注的。
问题——为什么借款金额在1000以下的逾期率是最高的呢?
判断:对于大部分人来说1000块钱是不需要进行借款的,那既然这部分客户连1000元都需要在网上进行借款,那说明这部分客户对资金的饥渴度是比较高的,这部分客户要么是没有稳定工作的小青年,要么是负债累累的人,所以这部分客户逾期率高则不言而喻了。
·不同借款期限的客户数量及逾期率


小结:9-12期的借款客户数量最多,其次是3-6期。18-24期的客户逾期率最高,达到了6.74%,3期及以下的客户逾期率最低,仅0.25%。综合客户数量及逾期情况来看,借款期限在1年以下的客户是相对来说较优质的客户,应多多推广。
问题——为什么3期以下的客户逾期率最低,18-24期的客户逾期率最高呢?
判断:对于借款期限为3期以下的客户,一方面借款期限短,比较容易记住,另一方面客户在选择期限时一般都会考虑每期还款金额与当前收入水平,是否有能力偿还每期账单而无太大压力,既然客户选择3期及以下期限,表明客户当前的收入水平是能够偿还每期账单的,而且期限也不长,所以基本上都能够按时还款。
而对于借款期限在18-24期的客户,我们可以思考以下客户为什么会选择这么长的期限去还款,有可能是当前收入无法覆盖掉短期限的账单,有可能是考虑到自身原因不想要每个月给自己太大压力,不管是何种原因都说明客户对偿还每期账单从长远来说是存在一定压力的,而且期限比较长,所以逾期就比较容易发生。
·不同借款利率的客户数量及逾期率


小结:借款客户最多的利率是19-24范围的,其次是16-19。而逾期率随着贷款利率的增加而增加,说明贷款利率越高,出现逾期的可能性是非常大的。所以对于申请高利率产品的客户应该加大其监控力度以控制其逾期情况。
问题——为什么贷款利率越高逾期率就越高呢?
贷款利率是根据客户的资料综合评定的,拍拍贷之所以给客户相对较低的利率说明这部分客户是拍拍贷想要争取的优质客户,其综合资信较好,而且这部分客户普遍对自己的信用是非常重视的,所以比较不容易发生逾期。

相对的,较高的借款利率一方面说明拍拍贷对这部分客户的综合资信是持怀疑态度的,通过以往客户贷款数据分分析判断这部分客户出现逾期的可能性比较大,所以收取较高的利息以应对后续逾期带来的损失;另一方面客户宁愿支付较高的利息也要取得这笔借款,说明客户的资金饥渴度较高,客户有可能是债务缠身,也有可能资金遇到问题需要周转,但不管是什么原因,客户的资金链非常有可能发生断裂,所以综上所述,这部分客户就容易发生逾期了。
·年龄分布情况及逾期率


小结:借款客户中年龄在22-30岁是最多的,为主力借款客户群体,其次是30-40岁。22岁以下客户的逾期率是最高的,达到了5.98%,而随着年龄的增长逾期率呈现下降趋势,说明年龄越大越清楚逾期对个人的影响,也会越注意控制自己的逾期情况。
问题——为什么年龄在18-22岁之间申请人数不多但逾期率却是最高的呢?
判断: 18-22岁主要是哪些人群——大学生或提早步入社会的小年轻们,这些人可能有超前的消费观念,但却不具有按时还款的能力,并且信用意识薄弱,对于逾期所带来的后果并没有放在心上或者压根就不知道,所以逾期率较高就有据可循了。
因为拍拍贷是没有人工审核的,所以针对这样的现象建议:1、严格控制对这部分的申请客户发放贷款,2、控制这部分客户的借款金额,3、在借款发放之后建议在每个月的还款短信提醒中增加几句话关于爱护自己的信用以及逾期带来的后果等温馨提示,4、这部分客户若产生逾期,后续再次进行申请借款的要求建议直接予以拒绝。
·性别、年龄及逾期分布情况


小结:男性客户数明显高于女性,而随着年龄的增长,其借款客户总数及逾期率呈下降趋势,其中除了20岁以下的客户中女性客户的逾期率高于男性外,其他各个年龄段的男性客户逾期率均高于女性,说明在还款习惯方面,女性客户更加注重自己的信用。
·初始评级及逾期情况


小结:初始评级为B的客户申请数最多,其次是C等级的客户,这两个等级的客户是借款主力军。随着初始评级等级的降低,其逾期率呈现增长的趋势,说明系统对客户的初始评级判定对其逾期情况具有一定的预测效果。

·认证情况分析——手机认证及逾期情况


小结:2015年手机已认证的客户比未认证客户多且差距大,而2016年未认证客户反超已认证客户。关于其逾期率,已认证客户及未认证客户的逾期率基本上不相上下,无明显标志显示认证与否对逾期率有相关影响,后续可考虑是否继续查看此指标对整体的影响。
·认证情况分析——户口认证及逾期情况


小结:所有客户中基本上大部分都是户口未认证的客户,且户口已认证客户及未认证客户的逾期率随着时间此消彼长,并没有明显规律显示谁多谁少,故判断户口认证情况与逾期情况并无明显关系,后续可考虑是否继续保留对该指标的考察。
·认证情况分析——视频认证及逾期情况


小结:大部分客户均为视频未认证的客户,其已认证及未认证的客户逾期率在2015年有区别,但在2016年则不相上下,说明视频认证与否对逾期率的影响不大,后续也可考虑是否继续保留对该指标的考察。
·认证情况分析——学历认证及逾期情况


小结:2015年学历未认证的客户居多,而2016年学历已认证客户逐渐上升且反超未认证客户数,成为主要借款客户,说明学历认证逐渐普及化。整体来说学历已认证客户的逾期率较低于未认证的客户,这说明学历已认证的客户发生逾期的概率比未认证的客户小,所以综合来说,已认证学历的客户都是主要的推广客户群。
·认证情况分析——征信认证及逾期情况


小结:征信未认证的客户占绝大部分且客户数呈上涨趋势,而征信已认证的客户数量增长不明显。另外征信已认证的客户的逾期率整体上是高于征信未认证客户的,故征信认证与否与逾期并无太大的关系。
·认证情况分析——淘宝认证及逾期情况


小结:所有客户中几乎均为淘宝未认证的客户,已认证客户占非常小的部分。而已认证客户的逾期率存在着季节性的波动,而未认证客户的逾期率与整体逾期率趋势是一致的。所以这一部分对于淘宝认证情况,我们应多关注已认证客户,针对其逾期率季节性的波动采取必要的营销收紧或加大定期催收力度。
·新老客户构成情况及逾期情况


小结:2015年借款客户中新老客户差距不大,从2016年开始借款客户主要以老客户为主,并且上涨趋势明显,与新客户差距逐渐增大。2015年基本上新客户逾期率保持在较低水平,而老客户逾期率比新客户高,2016年后新老客户逾期率均有所下降,并且老客户逾期率下降幅度较大,并低于新客户逾期率。综合说明在所有客户中,老客户为主要的借款群体,且逾期率基本上能够控制在非常小的水平,是后续主要的推广群体。
·老客户逾期情况分析——历史已逾期及未逾期分布情况


小结:已有老客户中,历史未出现逾期情况的客户占绝大部分,占比为80%,而历史已逾期客户仅占一小部分,比例为20%。说明当老客户再次申请贷款且成功的情况下,其历史还款情况大部分都是较为良好的,这一部分客户基本能够将风险控制在一定范围内。
·老客户逾期情况分析——历史未逾期&历史已逾期

小结:历史未逾期的客户中,当前未逾期的客户占据绝大部分,而逾期客户数量非常小,但也存在着一定的规律,2015年其逾期率有逐渐上升的趋势,而2016年后则保持持续下降趋势,且最后保持在非常低的水平。说明已有老客户中历史没有出现逾期的客户以后出现逾期的概率是非常小的,所以可以针对老客户进行再次营销并提高其在各个环节中的速度及满意度。

小结:历史已逾期的客户中,当前未逾期的客户依旧占据绝大部分,且历史已逾期当前逾期率相对历史未逾期当前逾期率来说不相上下,说明不管老客户历史逾期情况如何,再次借款且出现逾期的概率是非常低并且是逐渐下降中的。

四、结论

4.1 关于产品

1、产品类型有五种:普通、其他、APP闪电、电商、应收安全标,其中普通、其他、APP闪电为主要产品类型,。各种主要产品的逾期率差距不大,但电商的客户数不多,但逾期率却有3.24%,这是值得关注的。
2、借款总额基本上每年随着季度的变化逐渐增加,人均借款金额则表现为下降趋势,最后维持在5000的水平波动。借款金额主要集中在1000-10000之间,其中3000-5000的借款客户人数最多,其次是5000-10000,1000-10000的借款客户其逾期率相对来说较低。
3、9-12期的借款客户数量最多,其次是3-6期。18-24期的客户逾期率最高,3期及以下的客户逾期率最低。
4、借款客户最多的利率是19-24范围的,其次是16-19,逾期率随着借款利率的增加而增加,说明借款利率越高出现逾期的可能性越大。

4.2 关于客户

1、借款客户年龄在22-30岁是最多的,其次是30-40岁。22岁以下客户的逾期率是最高的,而随着年龄的增长逾期率呈现下降趋势,说明年龄越大越清楚逾期对个人的影响,也会越注意控制自己的逾期情况。
2、男性客户数明显高于女性,除了20岁以下的客户中女性客户的逾期率高于男性外,其他各个年龄段的男性客户逾期率均高于女性,说明在还款习惯方面,女性客户更加注重自己的信用。
3、初始评级为B的客户申请数最多,其次是C等级的客户。随着初始评级等级的降低,其逾期率呈现增长的趋势。
4、关于认证——学历认证客户数量上升明显,且成为主要借款客户,学历已认证客户的逾期率较低于未认证的客户;淘宝已认证的客户占比非常小,但已认证客户的逾期率呈现季节性变化,这是值得关注的;另外其他的各项认证对于其逾期率并无明显影响,故在后续工作中可考虑是否减少这些指标考察力度或是否继续考察这些指标。
5、已有老客户中,历史未出现逾期情况的客户占80%,历史已逾期客户仅占20%,而不管老客户历史逾期情况如何,再次借款且出现逾期的概率都是非常低并且是逐渐下降的。

五、建议

关于产品
1、建议减少电商产品的竞标数量,增加普通、其他、APP闪电产品的竞标数量
2、将借款金额尽量控制在10000以下,对高额度借款应加大风控及审核力度,并且在后续信用维护及催收中也应作为重点关注对象
3、重点推广并引导客户选择1年以下的短期限借款,对于较长期限的借款需求可加大风控及审核力度,并时刻关注其还款情况。
4、应关注并控制较高借款利率的借款需求,多关注后续还款情况并在出现逾期的情况下加大催收力度。
关于客户
1、尽量对22-40岁的客户进行定性推广,而22岁以下及40岁以上客户的借款需求则可加大风控及审核要求,并监控其还款情况以做好及时应对的准备。另外,对于22岁以下客户,建议控制其放款客户数量及金额,并在后续还款提醒中添加专属提醒,让客户爱护信用等。
2、加大对20岁以上女性客户的推广力度,并在借款的各个环节给予女性客户良好的客户体验。
3、对初始评级在C级以上的客户,在借款的各个环节给予便利及优惠,而对于低于C级的客户则谨慎考虑是否发放贷款,并将这部分成功发放借款的客户列为重点关注对象,以便后续及时进行应对。
4、加大对有学历客户的推广力度,另外,关注淘宝已认证的客户,针对其逾期率季节性的波动采取必要的营销收紧或加大定期催收力度等措施。
5、对老客户实施二次营销或多次营销,并且对于已有老客户进行借款需求的可适当简化非必要环节的或提高其再次借款的满意度。

利用SQL对拍拍贷数据进行逾期分析相关推荐

  1. 利用SQl对数据库实行数据拆分与组合

    利用SQl对数据库实行数据拆分与组合实现提供以下几种方案: 方法一: WITH CTE AS ( SELECT A.Id,A.[Uid],UserName FROM ( SELECT A.[id], ...

  2. 利用SQL*Loader将 Excel 数据导出到 Oracle 数据库中

    转自 http://www.jiejingwang.com  2002-10-24  捷径网 ========================================= 系统环境:   1.操 ...

  3. 利用sql语句删除重复数据

    记录原因: 昨天遇到一个问题:需要写一个sql语句删除重复数据.当时解决的办法,是先查询出重复的数据id,然后再单独写删除语句进行删除.今天想了想应该还是有其他办法解决的,研究了下可以通过一条语句就能 ...

  4. kettle分批处理大表数据_Kettle大量数据快速导出的解决方案(利用SQL导出百万级数据,挺快的)...

    org.apache.commons commons-vfs2 2.0 org.scannotation scannotation 1.0.3 dom4j dom4j 1.6.1 pentaho-ke ...

  5. 利用python爬取龙虎榜数据及后续分析

    ##之前已经有很多人写过相关内容,但我之前并未阅读过,这个爬虫也是按照自己的思路写的,可能比较丑陋,请见谅! 本人作为Python爬虫新手和股市韭菜,由于时间原因每晚没办法一个个翻龙虎榜数据,所以希望 ...

  6. 利用matlab mobile采集GPS数据进行可视化分析

    Hello啊,GPS数据在交通大数据分析中起到了很大作用,.....(不想写废话了,直接开始吧) 首先,需要在手机上下载matlab移动端,iOS和安卓系统都可以下,我刚开始学习matlab的时候用过 ...

  7. 决策树实践案例一之拍拍贷客户逾期还款预测

    本文分为两大部分第一部分简单举例讲述决策树算法的原理概念 第二部分基于决策树用案例实现贷款是否逾期预测 决策树算法是机器学习经典算法之一,原理相对简单易懂.首先决策树毕竟是帮助做出更好的决策的一种算法 ...

  8. Sql表结构及数据对比工具

    1 目的与意义 现管理技术小团队做zw项目.在上线时经常遇到sql未执行的漏洞,导致线上环境反复出现测试环境未出现过的bug. 为解决以上问题,对于由于sql导致的环境迁移的bug,需从配置数据.表结 ...

  9. 【SQLPlanet】基于迁徙率等指标浅析拍拍贷逾期数据(未完待续)

    1.背景介绍 拍拍贷是一家金融科技公司,2007年成立于上海,并在2017年11月10日成功于美国纽交所上市.根据官方消息,截至2018年9月30日,拍拍贷累计成交额已突破1300亿,15-29天及3 ...

  10. 拍拍贷业务数据探索分析-基于R语言

    ======================================================= 1.前言 根据百度百科和官网:拍拍贷成立于2007年6月,公司全称为"上海拍拍 ...

最新文章

  1. 学习linux要会mysql吗_linux 学习 mysql安装到连接
  2. markdown简明语法
  3. Spring 使用 JSR303自定义校验注解+分组校验
  4. python中for循环语句格式_Python基础-10循环语句
  5. java json格式字符串转为map_json格式的字符串序列化和反序列化的一些高级用法...
  6. [转载] Docker网络原则入门:EXPOSE,-p,-P,-link
  7. 监听是否到达页面滑动的可视区域最底部
  8. HDU-2594-Simpsons’ Hidden Talents (kmp)
  9. AntiModerate – 渐进式图片加载的 JavaScript 库
  10. python海龟漂亮图案代码大全_Python游戏海龟图案
  11. 看大神如何玩转微信小程序日历插件?
  12. linux安装软件系列之yum安装
  13. BZOJ 3654: [湖南集训]图样图森破 SA
  14. 渗透测试必备前置知识
  15. 为什么最大的品牌信任Beaver Builder - 我应该选择哪个WordPress页面构建器
  16. 5G智慧合杆的城市商业区应用
  17. 算法复杂度分析中的符号(Θ、Ο、ο、Ω、ω)的意义
  18. 微信会不会封服务器ip,最新微信防封号设置技巧(新微信如何防止封号)
  19. inetd和xinetd的区别 (ZT)
  20. doraemon的python tcp协议和udp协议

热门文章

  1. Javaweb尚硅谷网上书城项目
  2. 预付费客户抄表管理系统的应用
  3. 欧姆龙cp1h指令讲解_欧姆龙plc指令讲解.ppt
  4. cad2023三维立体图形图纸工程设计绘图软件Autodesk AutoCAD 2023 中文
  5. 程序猿趣图几张,第一张就亮瞎了..
  6. 58同城峰会落幕 智能化和下沉市场能否让58一直神奇?
  7. java编程练习题四
  8. 二分查找算法(Java)
  9. 程序猿代码面试指南 PDF
  10. 高等代数-三-消元法