多变量分析(终图)

最后探究贷款利率与信用评分和评级之间的关系:

data$CreditGrade <- factor(data$CreditGrade,order=TRUE,levels = c("AA","A","B","C","D","E","HR"))
data$ProsperRating..Alpha. <- factor(data$ProsperRating..Alpha.,order=TRUE,levels = c("AA","A","B","C","D","E","HR"))p1 <- ggplot(aes(x=creditscore,y=BorrowerRate,color=CreditGrade),data=subset(data,!(data$CreditGrade==""|data$CreditGrade=="NC")))+geom_jitter(alpha=0.5)+scale_x_continuous(limits = c(400,1000))+scale_color_brewer(type = "div",guide=guide_legend(title = "creditlevel(pre-2009)"))+ggtitle("2009年之前贷款利率与信用评分和评级关系图")p2 <- ggplot(aes(x=creditscore,y=BorrowerRate,color=ProsperRating..Alpha.),data=subset(data,!(data$ProsperRating..Alpha.=="")))+geom_jitter(alpha=0.5)+scale_x_continuous(limits = c(400,1000))+scale_color_brewer(type = "div",guide=guide_legend(title = "creditlevel(post-2009)"))+ggtitle("2009年之后贷款利率与信用评分和评级关系图")
grid.arrange(p1,p2,ncol = 1)


推论:
1.2009年之后,平台不再对信用分数600分之下的用户提供贷款服务;
2.2009年之前,用户信用等级与用户的信用分数分布一致,随信用分数的增高,用户的信用等级逐渐增加,对信用等级的评定中信用分数作用将强。但贷款利率并未与这两者有太强的联系。而2009年之后,弱化了信用分数对信用等级的影响。信用等级与分数相联系,但信用等级影响客户的贷款利率。等级高的客户贷款利率低,等级低的用户贷款利率高,更为公平。

  • 探究信用等级、贷款利率、贷款状态之间的关系:
data$Phase <- factor(data$Phase,order=TRUE,levels = c("Before 2009","After 2009"))
data$creditlevel <- factor(data$creditlevel,order=TRUE,levels = c("AA","A","B","C","D","E","HR"))
ggplot(aes(x=creditlevel,y=BorrowerRate,color=newLoanStatus),data = subset(data,!(is.na(data$newLoanStatus)|is.na(data$creditlevel))))+geom_jitter(alpha=0.5)+facet_wrap(~Phase)+ggtitle("2009年前后信用等级与贷款利率分析")


由上图分析可知,信用等级对贷款利率影响较大。此次根据信用等级绘图,可以再一次看到2009年之后信用等级和贷款利率之间的联系更好。2009年之前呈图更为凌乱,用户信用等级低也可用较低利率贷款,出现问题贷款的次数更多,而2009年之后情况明显好转。因此,2009年之后的信用评定准则更为合适。

  • 探究信用等级的影响因素:
ggplot(aes(x=BankcardUtilization,y=StatedMonthlyIncome,color=creditlevel),data = subset(data,!(is.na(data$creditlevel))))+geom_jitter(alpha=0.5)+scale_y_continuous(limits =c(0,50000))+scale_x_continuous(limits = c(0,2))+facet_wrap(~IsBorrowerHomeowner)+scale_color_brewer(type = "seq")+theme(panel.background = element_rect(fill="#DCDCDC"),panel.grid = element_blank())+ggtitle("信用等级影响因素分析")


信用等级评定对借款利率影响较大,故而分析一下除信用评分外对信用等级评定有影响的因素。通过分析发现: 1. 信用卡使用情况对信用评定影响较大。借款人信用卡使用额度和信用卡总透支额度的百分比越高,透支使用越严重,信用等级越低; 2. 借款人声称的月收入越高,借款人的信用更有可能越高,但这一影响力表现不太明显; 3. 借款人是否有房产一定程度上影响其信用等级。左图为无房产,右图为有房产,右图的高信用等级占比高于左图。

反思

该模拟探究实验从单变量、两个变量到多变量对prosper的贷款数据进行了初步的分析和数据可视化,主要分析了平台的客户特征,问题贷款、贷款利率以及信用等级和信用评分之间的关系,最后分析了影响信用等级的因素。 主要得出以下结论:

  • 该平台客户在加利福尼亚州、纽约州、弗洛里达州、德克萨斯州、伊利诺斯州分布较多,领先于其他各州,可以适当增大在其余州的宣传力度,开发新客户。

  • 客户的主要贷款用途集中在类别1、0、7,可以在与之相关的途径加大平台宣传力度,吸引新用户。

  • 问题贷款主要与征信查询次数、违约次数、债务收入比、收入范围相关,可以通过这几个变量建模,分析易出现问题贷款的客户特征。

  • 贷款利率与客户信用等级密切相关,信用等级高的客户,贷款利率低,信用等级低的客户,贷款利率高。

  • 2009年之后,弱化了信用分数对信用等级的影响。信用等级与客户的贷款利率关系更清晰。等级高的客户贷款利率低,等级低的用户贷款利率高,更为公平。该评定准则下问题贷款出现次数明显减少。

  • 信用卡使用情况、借款人月收入、有无房产等因素均对信用等级评定有影响。

分析过程中遇到的难点:

  1. 数据集中变量较多,很难理清关系,在前期单变量探索的时候需要更加注重对每一个变量的分析,加强对变量的认识。
  2. 需要在分析之处建立较为完善的分析目的,不然容易在分析到后面的时候容易因为变量过多理不清思路,下次可以在单变量探索之后圈定几个感兴趣的变量进行集中分析。

目前已经分析出来容易出现问题贷款的人群特征,下一步可以以此建模,圈定易问题贷款的客户群体,提高借贷利率。同时也分析出信用等级评定与哪些因素有关,可以再多探讨几个变量,完善这一信息,总结出较为完整的可以提高信用等级的方式。通过这两个思路可以让后续的报告思路更为清晰,结果更为明确。

R语言28-Prosper 贷款数据分析4相关推荐

  1. Udacity数据分析(进阶)-Prosper 贷款数据分析

    Prosper 贷款数据分析 Prosper是美国的一家P2P(个人对个人)在线借贷平台网站,世界排名2万左右.网站撮合了一些有闲钱的人和一些急于用钱的人.用户若有贷款需求,可在网站上列出期望数额和可 ...

  2. R语言地理加权回归数据分析

    在自然和社会科学领域有大量与地理或空间有关的数据,这一类数据一般具有严重的空间异质性,而通常的统计学方法并不能处理空间异质性,因而对此类型的数据无能为力.以地理加权回归为基础的一系列方法:经典地理加权 ...

  3. 如何让Hadoop结合R语言做统计和大数据分析?

    广大R语言爱好者借助强大工具RHadoop,可以在大数据领域大展拳脚,这对R语言程序员来说无疑是个喜讯. R是GNU的一个开源工具,具有S语言血统,擅长统计计算和统计制图.由Revolution An ...

  4. multinorm r语言_与心理学数据分析相关的R工具包

    为下周末的R语言会议热个身,写下自己收集的心理学研究的数据分析相关的R包. R语言做统计已经慢慢成为(国际)心理学的主流了,国内由于盗版SPSS的长期存在,严重阻碍了心理学研究者使用R的步伐.当然,考 ...

  5. 一、R语言Task View--Spatial 空间数据分析

    Task View index:  https://cloud.r-project.org/web/views/Spatial.html Task View 安装方法: (1)安装 CRAN Task ...

  6. python和r语言比较_Python和R语言之分析对比 - 数据分析

    在Python中调用R或在R中调用Python,为什么是"和"而不是"或"? 在互联网中,关于"R和Python"的文章,排名前十的搜索结果 ...

  7. R语言-来自Prosper的贷款数据探索

    案例分析:Prosper是美国的一家P2P在线借贷平台,网站撮合了一些有闲钱的人和一些急用钱的人.用户若有贷款需求,可在网站上列出期望数额和可承受的最大利率.潜在贷方则为数额和利率展开竞价. 本项目拟 ...

  8. R语言——拍拍贷利率数据分析

    拍拍贷利率数据分析 单变量 单变量绘图选择 单变量分析 双变量 双变量绘图选择 双变量分析 多变量 多变量绘图选择 多变量分析 定稿图与总结 图像展示 反思与总结 library(ggplot2) l ...

  9. R语言实战应用精讲50篇(三十一)-R语言入门系列-tidyverse数据分析流程

    1. 数据分析的开端,Tidyverse? tidyverse 是一个清晰的 R 包集合,在数据操作.探索和可视化领域提供统一的数据科学解决方案,这些解决方案具有共同的设计理念.它是由 RStudio ...

  10. R语言之简单的数据分析

    1.hist() 直方图 V = read.csv("data//test1.csv") # 显示数据 hist(V$x1,col = 1:7) #有颜色 hist(V$x2,) ...

最新文章

  1. F - Prime Path POJ - 3126
  2. 连影--影子007的回忆
  3. 015_CSS伪元素选择器
  4. PB9.0实现下拉数据列表的实现
  5. 计算机控制课程设计体会,计算机控制技术课程设计报告
  6. python 3.8 新特性 video_1分钟了解:Python3.8 新特性:仅位置参数
  7. CSMA/CD协议(一目了然,看过都说好)
  8. idea添加添加自动添加版本控制
  9. SQL Server数据库中的T-SQL如果存在语句概述
  10. 学习C++编程的优势有哪些?
  11. LeetCode Map Sum Pairs
  12. ubuntu 怎么下载android源代码 2013,简记Ubuntu下载 Android源码(示例代码)
  13. 重庆市打造集感知、分析、指挥“五位一体”的智慧城管系统
  14. Apicloud+Vue开发App专题
  15. 通过5个概念 一文弄明白DAO
  16. facebook推广有哪些运营技巧?
  17. MvvmLazy Android懒人框架
  18. 2022年9月份前端女生工作总结
  19. oracle 判断标签,判断text标签
  20. OpenCV视频质量检测--清晰度检测

热门文章

  1. mysql查询最近三个月数据方法
  2. Location is not available,the folder or directory is corrupted and unreadable
  3. MySQL学习宝典之最全的常用语法语句
  4. iOS上架详细通关教程(提交到AppStore)
  5. POI 单元格垂直居中,相同内容的单元格合并
  6. 加菲猫台词 (请对号入座-:))
  7. mysql和pg数据库表备份及还原
  8. js数组对象按照中文拼音排序
  9. PHP接入微信官方支付(native·APIv3)
  10. SpringBoot电商项目前后端界面搭建