Task1 赛题理解

赛题背景
金融行业里面,对风险控制非常严格,如果风控把握不好,那么会导致坏产等一系列恶性循环。因此,风控便成为了金融公司业务管理中重要的一环。这次,结合天池的优势,进行《零基础入门金融风控之贷款违约预测挑战赛》的练习,借此巩固python的使用和知识巩固,并对金融相关的行业和逻辑思维有更加深入的了解,对数据建模有更加系统的使用和熟悉。

一、了解数据状况
1、数据指标及其含义

` id 为贷款清单分配的唯一信用证标识
`loanAmnt 贷款金额
`term 贷款期限(year)
`interestRate 贷款利率
`installment 分期付款金额
`grade 贷款等级
`subGrade 贷款等级之子级
`employmentTitle 就业职称
`employmentLength 就业年限(年)
`homeOwnership 借款人在登记时提供的房屋所有权状况
`annualIncome 年收入
`verificationStatus 验证状态
`issueDate 贷款发放的月份
`purpose 借款人在贷款申请时的贷款用途类别
`postCode 借款人在贷款申请中提供的邮政编码的前3位数字
`regionCode 地区编码
`dti 债务收入比
`delinquency_2years 借款人过去2年信用档案中逾期30天以上的违约事件数
`ficoRangeLow 借款人在贷款发放时的fico所属的下限范围
`ficoRangeHigh 借款人在贷款发放时的fico所属的上限范围
`openAcc 借款人信用档案中未结信用额度的数量
`pubRec 贬损公共记录的数量
`pubRecBankruptcies 公开记录清除的数量
`revolBal 信贷周转余额合计
`revolUtil 循环额度利用率,或借款人使用的相对于所有可用循环信贷的信贷金额
`totalAcc 借款人信用档案中当前的信用额度总数
`initialListStatus 贷款的初始列表状态
`applicationType 表明贷款是个人申请还是与两个共同借款人的联合申请
`earliesCreditLine 借款人最早报告的信用额度开立的月份
`title 借款人提供的贷款名称
`policyCode 公开可用的策略_代码=1新产品不公开可用的策略_代码=2

2、常用指标
(1)混淆矩阵

(2)准确率(accurancy)
如果样本不均衡,那么该指标可能不够精确
(3)精确率(precision)
(4)召回率(recall)
(5)F1指标(F1 SCORE)
结合精确率和召回率的指标,兼顾性及参考性较单一指标要好
(6)P-R曲线
以召回率为横坐标,以精确率为纵坐标的曲线
(7)ROC
以假正例率(FPR)为横坐标,真正例率(TPR)为纵坐标的曲线
(8)AUC
ROC曲线与坐标轴围成的面积


二、描述性数据概览(分析)
目的:了解变量间的相互关系以及变量与预测值之间的存在关系。
1、数据概况了解:
加载库,读取数据集,查看数据集大小及原始特征
简单查看数据集中每个特征(字段)的数据类型
2、缺失值处理和唯一值查看









三、关于特征工程
#注意这里加载的第三方库,需要提前准备,因为笔者的电脑win10系统64位,运行环境为anaconda3版本,需要另外安装tqdm,xgboost,等库,愣愣是浪费了一些时间,如果教程里面可以提前预制这些第三方库安装的内容,会更友好一些。
(这也说明了我比小白还小白的事实- -)

(安装xgboost费了好多时间)

(终于可以开始下载了~)

(下载并安装……)

1、特征预处理
查找数据中的对象特征和数值特征

  • 缺失值填充
  • 时间格式处理
  • 对象类型特征转换到数值

2、异常值处理
处理异常值的重要前提,在于异常值可不可用。如果 不可用则考虑直接剔除,如果可用,则需要进行保留。

  • 查看数据方差来判断异常值
  • 查看箱型图来判断异常值

3、数据分箱
目的——降噪

简单小结:
特征工程在建模分析中是重要的一环,在代码调试方面也需要花费非常多的时间,要真正弄懂这个环节,需要下一番功夫才行。

四、建模与调参
目的:了解各种模型,以及模型的评价及调参方法
1 逻辑回归模型
https://blog.csdn.net/han_xiaoyang/article/details/49123419

2 决策树模型
https://blog.csdn.net/c406495762/article/details/76262487

3 GBDT模型
https://zhuanlan.zhihu.com/p/45145899

4 XGBoost模型
https://blog.csdn.net/wuzhongqiang/article/details/104854890

5 LightGBM模型
https://blog.csdn.net/wuzhongqiang/article/details/105350579

6 Catboost模型
https://mp.weixin.qq.com/s/xloTLr5NJBgBspMQtxPoFA

7 时间序列模型(选学)
RNN:https://zhuanlan.zhihu.com/p/45289691
LSTM:https://zhuanlan.zhihu.com/p/83496936

再次总结:建模是一个大工程,和特征工程类似,需要强大的理论知识和扎实的代码演算经验才能顺利将其掌握。零基础入门不易,但是只要持之以恒,就一定能攻克它。
附:模型对比的优劣性
https://github.com/datawhalechina/team-learning-data-mining/blob/master/FinancialRiskControl/Task4%20建模调参.md

五、模型融合
模型融合的目的,在于结合不同模型之间的优劣,取长补短,融合后的新模型,可能会有出其不意的效果。
参考资料:
1、https://blog.csdn.net/wuzhongqiang/article/details/105012739
2、https://github.com/datawhalechina/team-learning-data-mining/blob/master/FinancialRiskControl/Task5%20模型融合.md

结课心得:零基础入门是不存在的,要学的知识,要推演的代码,要排除的BUG,一个都少不了,没有人会替你把前进的路上所有的石头都搬走,总会有一个人背负重任前行的时候。潜心修行,一步一个脚印,才能真正把建模拿下来,才能真正掌握用python实现数据分析的技能。一起加油吧!

关于零基础入门金融风控挑战赛的笔记系列相关推荐

  1. 零基础入门金融风控之贷款违约预测挑战赛-task01

    零基础入门金融风控之贷款违约预测挑战赛-task01 零基础入门金融风控之贷款违约预测挑战赛 1.赛题描述 根据某信贷平台的贷款记录的数据,进行训练测试,预测用户贷款是否违约,得出用户违约的概率. 在 ...

  2. 零基础入门金融风控之贷款违约预测挑战赛——简单实现

    零基础入门金融风控之贷款违约预测挑战赛 赛题理解 赛题以金融风控中的个人信贷为背景,要求选手根据贷款申请人的数据信息预测其是否有违约的可能,以此判断是否通过此项贷款,这是一个典型的分类问题.通过这道赛 ...

  3. 笔记之零基础入门金融风控-贷款违约预测

    零基础入门金融风控-贷款违约预测 赛题描述 赛题概况 数据概况 合理的创建标题,有助于目录的生成 预测指标 赛题流程 评分卡 笔记记录转载 赛题描述 赛题以金融风控中的个人信贷为背景,要求选手根据贷款 ...

  4. 零基础入门金融风控-贷款违约预测-机器学习-数据分析

    零基础入门金融风控-贷款违约预测 一.赛题数据 赛题以预测用户贷款是否违约为任务,数据集报名后可见并可下载,该数据来自某信贷平台的贷款记录,总数据量超过120w,包含47列变量信息,其中15列为匿名变 ...

  5. 零基础入门金融风控-贷款违约预测_Task1

    贷款违约预测_Task1 零基础入门金融风控-贷款违约预测_Task1 数据概况 预测指标 零基础入门金融风控-贷款违约预测_Task1 数据概况 数据包含三部分:训练集(train.csv).测试集 ...

  6. 零基础入门金融风控-贷款违约预测-Task4 建模与调参

    此部分为零基础入门金融风控的 Task4 建模调参部分,带你来了解各种模型以及模型的评价和调参策略,欢迎大家后续多多交流. 项目地址 比赛地址 4.1 学习目标 学习在金融分控领域常用的机器学习模型 ...

  7. 零基础入门金融风控-贷款违约预测-Task05——模型融合

    有幸参加了阿里云举办的零基础入门金融风控-贷款违约预测训练营.收获颇多. 每天记录一些自己之前的知识盲点,需经常温习. 第五次的学习任务,是模型融合. 一.模型融合常用方法 模型融合有常用的如下六种方 ...

  8. 零基础入门金融风控-贷款违约预测

    写在前面: 刚接触数据挖掘,看了几页python就跳进了这个大坑,也不知道该咋写这个博客,先瞎写着吧.介绍下自己参加的这个项目,是Datawhale和天池比赛联合发起的,我们在Datawhale组对学 ...

  9. 阿里天池零基础入门金融风控-贷款违约预测文本处理

    阿里天池零基础入门金融风控-贷款违约预测文本处理 文本处理 日期处理 等级处理 就业年限处理 删除含有空值的行 数据归一化 踩坑 文本处理 日期处理 earliesCreditLine: 可以看到ea ...

最新文章

  1. UVA10020(最小区间覆盖)
  2. 【Python】ime series:时间序列
  3. java读取对象失败_jsp exception对象获取异常信息
  4. vue路由切换和用location切换url的区别
  5. 爬虫项目(二)---采集从03月02号以来的世界各国疫情数据
  6. java运行显示“找不到或无法加载主类”的解决办法(linux)
  7. linux c当程序接受来自按键q或q后退出程序_Linux 命令行 整理(四)
  8. Android NDK学习(2)
  9. tcp测试监听工具_linux 下两款网络性能测试工具介绍
  10. matplotlib绘制李萨如图(四) 利用交互模式动态3D李萨如图
  11. python进阶到高阶大全(强烈推荐)
  12. 产业园 电气火灾监控系统的应用
  13. 数学建模算法:层次分析法之如何选择旅游目的地
  14. idea项目启动报错 Failed to parse configuration class [com.epoint.FrameWebApplication]
  15. WPF Binding绑定模式
  16. 大一计算机网络技术实训总结,大一计算机网络技术实训报告精选
  17. 怎么从光缆缆标志区别是单模光缆还是多模光缆
  18. 阿里云服务器搭建视频
  19. 英语表达的收集类游戏
  20. 耳机在macOS系统电脑上怎么听不到任何声音怎么办?

热门文章

  1. 【转】什么是预研?产品预研与技术预研
  2. matlab中plot函数画线时 颜色和类型
  3. 在资源管理器中隐藏指定分区
  4. 渲染是不是很费电脑,云渲染对电脑的要求高吗?
  5. python控制苹果手机触摸,Appium+python自动化(二十九)- 模拟手指在手机上多线多点作战...
  6. 局部边缘保持滤波(LEP)高动态范围图像HDR压缩 python实现
  7. 在CentOS 7配置IPv6 DNS Server
  8. Origin 绘制分段函数图
  9. 第八周编程题在线测试
  10. 计算机学校班干部竞选演讲稿,精选:2019学校班干部个人竞选演讲稿范文五篇...