R语言28-Prosper 贷款数据分析4
多变量分析(终图)
最后探究贷款利率与信用评分和评级之间的关系:
data$CreditGrade <- factor(data$CreditGrade,order=TRUE,levels = c("AA","A","B","C","D","E","HR"))
data$ProsperRating..Alpha. <- factor(data$ProsperRating..Alpha.,order=TRUE,levels = c("AA","A","B","C","D","E","HR"))p1 <- ggplot(aes(x=creditscore,y=BorrowerRate,color=CreditGrade),data=subset(data,!(data$CreditGrade==""|data$CreditGrade=="NC")))+geom_jitter(alpha=0.5)+scale_x_continuous(limits = c(400,1000))+scale_color_brewer(type = "div",guide=guide_legend(title = "creditlevel(pre-2009)"))+ggtitle("2009年之前贷款利率与信用评分和评级关系图")p2 <- ggplot(aes(x=creditscore,y=BorrowerRate,color=ProsperRating..Alpha.),data=subset(data,!(data$ProsperRating..Alpha.=="")))+geom_jitter(alpha=0.5)+scale_x_continuous(limits = c(400,1000))+scale_color_brewer(type = "div",guide=guide_legend(title = "creditlevel(post-2009)"))+ggtitle("2009年之后贷款利率与信用评分和评级关系图")
grid.arrange(p1,p2,ncol = 1)
推论:
1.2009年之后,平台不再对信用分数600分之下的用户提供贷款服务;
2.2009年之前,用户信用等级与用户的信用分数分布一致,随信用分数的增高,用户的信用等级逐渐增加,对信用等级的评定中信用分数作用将强。但贷款利率并未与这两者有太强的联系。而2009年之后,弱化了信用分数对信用等级的影响。信用等级与分数相联系,但信用等级影响客户的贷款利率。等级高的客户贷款利率低,等级低的用户贷款利率高,更为公平。
- 探究信用等级、贷款利率、贷款状态之间的关系:
data$Phase <- factor(data$Phase,order=TRUE,levels = c("Before 2009","After 2009"))
data$creditlevel <- factor(data$creditlevel,order=TRUE,levels = c("AA","A","B","C","D","E","HR"))
ggplot(aes(x=creditlevel,y=BorrowerRate,color=newLoanStatus),data = subset(data,!(is.na(data$newLoanStatus)|is.na(data$creditlevel))))+geom_jitter(alpha=0.5)+facet_wrap(~Phase)+ggtitle("2009年前后信用等级与贷款利率分析")
由上图分析可知,信用等级对贷款利率影响较大。此次根据信用等级绘图,可以再一次看到2009年之后信用等级和贷款利率之间的联系更好。2009年之前呈图更为凌乱,用户信用等级低也可用较低利率贷款,出现问题贷款的次数更多,而2009年之后情况明显好转。因此,2009年之后的信用评定准则更为合适。
- 探究信用等级的影响因素:
ggplot(aes(x=BankcardUtilization,y=StatedMonthlyIncome,color=creditlevel),data = subset(data,!(is.na(data$creditlevel))))+geom_jitter(alpha=0.5)+scale_y_continuous(limits =c(0,50000))+scale_x_continuous(limits = c(0,2))+facet_wrap(~IsBorrowerHomeowner)+scale_color_brewer(type = "seq")+theme(panel.background = element_rect(fill="#DCDCDC"),panel.grid = element_blank())+ggtitle("信用等级影响因素分析")
信用等级评定对借款利率影响较大,故而分析一下除信用评分外对信用等级评定有影响的因素。通过分析发现: 1. 信用卡使用情况对信用评定影响较大。借款人信用卡使用额度和信用卡总透支额度的百分比越高,透支使用越严重,信用等级越低; 2. 借款人声称的月收入越高,借款人的信用更有可能越高,但这一影响力表现不太明显; 3. 借款人是否有房产一定程度上影响其信用等级。左图为无房产,右图为有房产,右图的高信用等级占比高于左图。
反思
该模拟探究实验从单变量、两个变量到多变量对prosper的贷款数据进行了初步的分析和数据可视化,主要分析了平台的客户特征,问题贷款、贷款利率以及信用等级和信用评分之间的关系,最后分析了影响信用等级的因素。 主要得出以下结论:
该平台客户在加利福尼亚州、纽约州、弗洛里达州、德克萨斯州、伊利诺斯州分布较多,领先于其他各州,可以适当增大在其余州的宣传力度,开发新客户。
客户的主要贷款用途集中在类别1、0、7,可以在与之相关的途径加大平台宣传力度,吸引新用户。
问题贷款主要与征信查询次数、违约次数、债务收入比、收入范围相关,可以通过这几个变量建模,分析易出现问题贷款的客户特征。
贷款利率与客户信用等级密切相关,信用等级高的客户,贷款利率低,信用等级低的客户,贷款利率高。
2009年之后,弱化了信用分数对信用等级的影响。信用等级与客户的贷款利率关系更清晰。等级高的客户贷款利率低,等级低的用户贷款利率高,更为公平。该评定准则下问题贷款出现次数明显减少。
信用卡使用情况、借款人月收入、有无房产等因素均对信用等级评定有影响。
分析过程中遇到的难点:
- 数据集中变量较多,很难理清关系,在前期单变量探索的时候需要更加注重对每一个变量的分析,加强对变量的认识。
- 需要在分析之处建立较为完善的分析目的,不然容易在分析到后面的时候容易因为变量过多理不清思路,下次可以在单变量探索之后圈定几个感兴趣的变量进行集中分析。
目前已经分析出来容易出现问题贷款的人群特征,下一步可以以此建模,圈定易问题贷款的客户群体,提高借贷利率。同时也分析出信用等级评定与哪些因素有关,可以再多探讨几个变量,完善这一信息,总结出较为完整的可以提高信用等级的方式。通过这两个思路可以让后续的报告思路更为清晰,结果更为明确。
R语言28-Prosper 贷款数据分析4相关推荐
- Udacity数据分析(进阶)-Prosper 贷款数据分析
Prosper 贷款数据分析 Prosper是美国的一家P2P(个人对个人)在线借贷平台网站,世界排名2万左右.网站撮合了一些有闲钱的人和一些急于用钱的人.用户若有贷款需求,可在网站上列出期望数额和可 ...
- R语言地理加权回归数据分析
在自然和社会科学领域有大量与地理或空间有关的数据,这一类数据一般具有严重的空间异质性,而通常的统计学方法并不能处理空间异质性,因而对此类型的数据无能为力.以地理加权回归为基础的一系列方法:经典地理加权 ...
- 如何让Hadoop结合R语言做统计和大数据分析?
广大R语言爱好者借助强大工具RHadoop,可以在大数据领域大展拳脚,这对R语言程序员来说无疑是个喜讯. R是GNU的一个开源工具,具有S语言血统,擅长统计计算和统计制图.由Revolution An ...
- multinorm r语言_与心理学数据分析相关的R工具包
为下周末的R语言会议热个身,写下自己收集的心理学研究的数据分析相关的R包. R语言做统计已经慢慢成为(国际)心理学的主流了,国内由于盗版SPSS的长期存在,严重阻碍了心理学研究者使用R的步伐.当然,考 ...
- 一、R语言Task View--Spatial 空间数据分析
Task View index: https://cloud.r-project.org/web/views/Spatial.html Task View 安装方法: (1)安装 CRAN Task ...
- python和r语言比较_Python和R语言之分析对比 - 数据分析
在Python中调用R或在R中调用Python,为什么是"和"而不是"或"? 在互联网中,关于"R和Python"的文章,排名前十的搜索结果 ...
- R语言-来自Prosper的贷款数据探索
案例分析:Prosper是美国的一家P2P在线借贷平台,网站撮合了一些有闲钱的人和一些急用钱的人.用户若有贷款需求,可在网站上列出期望数额和可承受的最大利率.潜在贷方则为数额和利率展开竞价. 本项目拟 ...
- R语言——拍拍贷利率数据分析
拍拍贷利率数据分析 单变量 单变量绘图选择 单变量分析 双变量 双变量绘图选择 双变量分析 多变量 多变量绘图选择 多变量分析 定稿图与总结 图像展示 反思与总结 library(ggplot2) l ...
- R语言实战应用精讲50篇(三十一)-R语言入门系列-tidyverse数据分析流程
1. 数据分析的开端,Tidyverse? tidyverse 是一个清晰的 R 包集合,在数据操作.探索和可视化领域提供统一的数据科学解决方案,这些解决方案具有共同的设计理念.它是由 RStudio ...
- R语言之简单的数据分析
1.hist() 直方图 V = read.csv("data//test1.csv") # 显示数据 hist(V$x1,col = 1:7) #有颜色 hist(V$x2,) ...
最新文章
- F - Prime Path POJ - 3126
- 连影--影子007的回忆
- 015_CSS伪元素选择器
- PB9.0实现下拉数据列表的实现
- 计算机控制课程设计体会,计算机控制技术课程设计报告
- python 3.8 新特性 video_1分钟了解:Python3.8 新特性:仅位置参数
- CSMA/CD协议(一目了然,看过都说好)
- idea添加添加自动添加版本控制
- SQL Server数据库中的T-SQL如果存在语句概述
- 学习C++编程的优势有哪些?
- LeetCode Map Sum Pairs
- ubuntu 怎么下载android源代码 2013,简记Ubuntu下载 Android源码(示例代码)
- 重庆市打造集感知、分析、指挥“五位一体”的智慧城管系统
- Apicloud+Vue开发App专题
- 通过5个概念 一文弄明白DAO
- facebook推广有哪些运营技巧?
- MvvmLazy Android懒人框架
- 2022年9月份前端女生工作总结
- oracle 判断标签,判断text标签
- OpenCV视频质量检测--清晰度检测