项目背景:

选题出自阿里天池大赛——金融风控_贷款违约预测。赛题以金融风控中的个人信贷为背景,要求选手根据贷款申请人的数据信息预测其是否有违约的可能,以此判断是否通过此项贷款。

*以下作图基于一个前提假设,认为字段中唯一值较少的特征变量离散型变量,连续性加强的特征变量为连续型变量。

主要分析内容:

第一组图

1、

*展示训练数据集中的各个字段的缺失情况。
#查看有缺失的特征属性
train_null_data=train_data[has_null.index]
train_null_data.isnull().sum().plot(kind='barh')
for x,y in enumerate(has_null):plt.text(y+500,x,y,fontsize=9)
plt.title('the number of queshi')
plt.savefig('tmp_pictures/queshi_fenbu.jpg',bbox_inches='tight')

2、

展示离散型特征变量中各个类别在不同相应变量上的分布情况

def duijizhu_hebing(data,n):figure,axes=plt.subplots(10,2,figsize=(12,4*n))count_in_feature={}for each in data.columns:if each not in ['isDefault','policyCode']:count_in_feature[each]=data[each].unique().shape[0]            #选择不同值最少的n个特征min_n=pd.DataFrame([count_in_feature]).T.sort_values(by=0)[:10]#画出这n个特征中每个值对应是否违约的分布情况for each in min_n.index:i=min_n.index.tolist().index(each)data.groupby(by=each).isDefault.value_counts().unstack('isDefault').plot(kind='bar',stacked=True,ax=axes[i,0])tmp=data.groupby(by=each).isDefault.value_counts().unstack('isDefault')#对临时数据集进行规格化tmp.div(tmp.sum(1).astype('float'),axis=0).plot(kind='bar',stacked=True,ax=axes[i,1])plt.savefig('tmp_pictures/aaaa.jpg')
duijizhu_hebing(train_data,10)

*此处取离散程度最强的前十个特征变量进行作图(数量可以根据自己的需求拟定),输出如下图片

3、

类似于第二张图,在此基础上添加数值,完整代码如下:

def biliduiji(data,list_,canzhao,path):for each in list_:#画布figure,axes=plt.subplots(1,1,figsize=(8,data[each].unique().shape[0]*0.3))#组合tmp=data.groupby(each)[canzhao].value_counts().unstack(canzhao)tmp['total']=tmp.sum(axis=1)tmp=tmp.drop('total',axis=1)#归一b=tmp.div(tmp.sum(1).astype('float'),axis=0)      b=b.round(2)b=b.fillna(0)#作图b.plot(kind='barh',stacked=True,ax=axes,width=0.7)plt.yticks(fontsize=10)plt.legend(loc='lower right')#数据for col in b:for y,x in enumerate(b[col].values):       if x!=0:plt.text(x*0.5+sum(b.iloc[y][:b.columns.tolist().index(col)]),y-0.1,x,fontsize=10)plt.title(f'{each} for {canzhao}',fontsize=14)plt.savefig(f'{path}/{each} for {canzhao}.jpg',bbox_inches='tight')```

*此函数中一共有四个参数,分别是需要处理的数据集,需要分析的字段,选择的分类参照变量,保存路径。可以根据自己的需要输出任意数据集中的任意字段基于某特征的分类情况。
输出结果如下




通过以上三组图片已经可以对数据集中蕴含的基本规律做出描述分析。


第二组图

这部分选用数据集较小的tips数据

1、相关关系图

2、散点图

总结

两组图之间似乎没有任何衔接关系,但通过第二组图可以联想到,如果同样是seaborn绘制第一组数据中的堆积柱状图,可以一定程度上减少代码的复杂性,但第一组图的代码中包含的功能较多,对于指定的业务场景复用性较强。

阿里天池数据挖掘大赛——贷款违约预测之探索性分析(可视化展示)相关推荐

  1. Datawhale学习笔记【阿里云天池 金融风控-贷款违约预测】Task2 数据分析

    阿里云天池学习赛[金融风控-贷款违约预测] 赛题数据及背景 python库的导入 国内镜像源网址及使用方法 镜像使用方法 文件读取 数据的总体了解 查看数据集中特征缺失值,唯一值等 检查缺失值 缺失值 ...

  2. DataWhale天池-金融风控贷款违约预测-Task01赛题理解

    目录 一.赛题概况 二.数据集介绍 三.预测指标 理解 通过ROC曲线评估分类器 最佳阈值点选择 一.赛题概况 本次新人赛是Datawhale与天池联合发起的0基础入门系列赛事第四场 -- 零基础入门 ...

  3. 1.天池金融风控-贷款违约预测新人赛之预备知识

    比赛链接:金融风控-贷款违约预测 因为这是一个金融风控专题的数据挖掘实战,在开始之前先引入一些预备知识. 1.预备知识 1.1预测指标 本次竞赛用AUC作为评价指标,AUC为ROC曲线下与坐标轴围成的 ...

  4. 阿里天池学习赛-金融风控-贷款违约预测

    阿里天池学习赛-金融风控-贷款违约预测 1 赛题理解 1.1 赛题数据 1.2 评测标准 2 探索性分析(EDA) 2.1 初窥数据 2.2 查看缺失值占比 2.3 数值型变量 2.3.1 数据分布 ...

  5. 阿里天池零基础入门金融风控-贷款违约预测文本处理

    阿里天池零基础入门金融风控-贷款违约预测文本处理 文本处理 日期处理 等级处理 就业年限处理 删除含有空值的行 数据归一化 踩坑 文本处理 日期处理 earliesCreditLine: 可以看到ea ...

  6. 数据挖掘机器学习[六]---项目实战金融风控之贷款违约预测

    相关文章: 特征工程详解及实战项目[参考] 数据挖掘---汽车车交易价格预测[一](测评指标:EDA) 数据挖掘机器学习---汽车交易价格预测详细版本[二]{EDA-数据探索性分析} 数据挖掘机器学习 ...

  7. 零基础入门数据挖掘之金融风控-贷款违约预测

    零基础入门数据挖掘之金融风控-贷款违约预测 摘要 1.数据概况 2.数据读取 3.分类指标评价计算 摘要 在实践中学,很高兴有这次机会,与志同道合的小伙伴一起学习,本次主要通过天池实际比赛项目学习数据 ...

  8. 天池学习赛之贷款违约预测

    一.写在前面的话 这是我的第一篇博客,希望写好.我几乎是一个编程小白,只有一点点C和Java的经验,一路懵头懵脑的成为了一名经济学渣硕(真的是渣).研一下学期开了一门<数据挖掘与分析>的课 ...

  9. 「机器学习」天池比赛:金融风控贷款违约预测

    一.前言 1.1 赛题背景 赛题以金融风控中的个人信贷为背景,要求选手根据贷款申请人的数据信息预测其是否有违约的可能,以此判断是否通过此项贷款,这是一个典型的分类问题. 任务:预测用户贷款是否违约 比 ...

最新文章

  1. docker 常用操作
  2. ubuntu c mysql_Ubuntu下MySql和C连接的一些问题
  3. ie导出excel是html文件路径,导出HTML到Excel中的IE11 - “拒绝访问”
  4. #Pragma编译选项
  5. 英语口语练习系列-C24-杂技-问候语-乡愁
  6. 系统磁盘空间满的一个问题
  7. python开发环境有哪些特点_快速了解Python开发环境Spyder
  8. delphi连接SQL2005做的数据库管理系统的一些部署问题
  9. 开源GIS(十二)——openlayers中加载切片原理
  10. 「代码随想录」本周学习小结!(动态规划系列四)
  11. sql cast函数_数据分析面试必备——SQL你掌握的怎么样?
  12. 【Linux】Linux的信号量集
  13. 移动硬盘计算机管理无法显示,移动硬盘不显示怎么办
  14. Excel阳历转农历VBA函数
  15. P1434 [SHOI2002]滑雪【记忆化搜索DP】
  16. ipad/iphone内存管理三之NoAutorelease和Autorelease详细解说
  17. 花1亿扶持优质红人,如涵推动网红经济出圈之路有何深意?
  18. banner设圆角_illustrator大气、科技感的Banner设计教程
  19. 算法导论(22.1):图的表示
  20. BZOJ2277[Poi2011]Strongbox——数论

热门文章

  1. 计算机键盘光标上下键失灵,输入时使用键盘上下键实现光标上下移动功能
  2. 同时删除多个 Txt 文本文档的最后几行
  3. 基于Android的校园购物系统设计及实现
  4. 下载VB6IDEMouseWheelAddin.dll让VB6支持鼠标滚轮插件
  5. 快手客户端开发面试(一二三+HR面)
  6. 陈力:传智播客古代 珍宝币 泡泡龙游戏开发第53讲:PHP smarty模板配置及变量操作
  7. mybatis 插件机制
  8. Spark--什么是宽窄依赖,及特殊join算子,join时何时产生shuffle,何时不产生shuffle
  9. 打印机调用彩色和黑色JAVA,Java:利用接口实现打印机案例(墨盒有彩色和黑白色,纸张有A4纸和B5纸)...
  10. epplus 速度_VSTO学习之路:学习使用Epplus(1)