零基础入门金融风控-贷款违约预测

  • 赛题描述
    • 赛题概况
    • 数据概况
    • 合理的创建标题,有助于目录的生成
    • 预测指标
    • 赛题流程
    • 评分卡

笔记记录转载

赛题描述

赛题以金融风控中的个人信贷为背景,要求选手根据贷款申请人的数据信息预测其是否有违约的可能,以此判断是否通过此项贷款,这是一个典型的分类问题

赛题概况

赛题以预测金融风险为任务,该数据来自某信贷平台的贷款记录,总数据量超过120w,包含47列变量信息,其中15列为匿名变量。从中抽取80万条作为训练集,20万条作为测试集A,20万条作为测试集B,同时会对employmentTitle、purpose、postCode和title等信息进行脱敏。
数据脱敏是指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护。在涉及客户安全数据或者一些商业性敏感数据的情况下,在不违反系统规则条件下,对真实数据进行改造并提供测试使用,如身份证号、手机号、卡号、客户号等个人信息都需要进行数据脱敏。)

数据概况

撤销:Ctrl/Command + Z
重做:Ctrl/Command + Y
加粗:Ctrl/Command + B
斜体:Ctrl/Command + I
标题:Ctrl/Command + Shift + H
无序列表:Ctrl/Command + Shift + U
有序列表:Ctrl/Command + Shift + O
检查列表:Ctrl/Command + Shift + C
插入代码:Ctrl/Command + Shift + K
插入链接:Ctrl/Command + Shift + L
插入图片:Ctrl/Command + Shift + G
查找:Ctrl/Command + F
替换:Ctrl/Command + G

合理的创建标题,有助于目录的生成

对于数据在比赛界面都有对应的数据概况介绍(匿名特征除外),说明列的性质特征。了解列的性质会有助于我们对于数据的理解和后续分析。 Tip:匿名特征,就是未告知数据列所属的性质的特征列。
train.csv

id 为贷款清单分配的唯一信用证标识
loanAmnt 贷款金额
term 贷款期限(year)
interestRate 贷款利率
installment 分期付款金额
grade 贷款等级
subGrade 贷款等级之子级
employmentTitle 就业职称
employmentLength 就业年限(年)
homeOwnership 借款人在登记时提供的房屋所有权状况
annualIncome 年收入
verificationStatus 验证状态
issueDate 贷款发放的月份
purpose 借款人在贷款申请时的贷款用途类别
postCode 借款人在贷款申请中提供的邮政编码的前3位数字
regionCode 地区编码
dti 债务收入比
delinquency_2years 借款人过去2年信用档案中逾期30天以上的违约事件数
ficoRangeLow 借款人在贷款发放时的fico所属的下限范围
ficoRangeHigh 借款人在贷款发放时的fico所属的上限范围
openAcc 借款人信用档案中未结信用额度的数量
pubRec 贬损公共记录的数量
pubRecBankruptcies 公开记录清除的数量
revolBal 信贷周转余额合计
revolUtil 循环额度利用率,或借款人使用的相对于所有可用循环信贷的信贷金额
totalAcc 借款人信用档案中当前的信用额度总数
initialListStatus 贷款的初始列表状态
applicationType 表明贷款是个人申请还是与两个共同借款人的联合申请
earliesCreditLine 借款人最早报告的信用额度开立的月份
title 借款人提供的贷款名称
policyCode 公开可用的策略_代码=1新产品不公开可用的策略_代码=2
n系列匿名特征 匿名特征n0-n14,为一些贷款人行为计数特征的处理

预测指标

竞赛采用AUC作为评价指标。AUC(Area Under Curve)被定义为 ROC曲线 下与坐标轴围成的面积,AUC的取值范围在0.5和1之间。AUC越接近1.0,检测方法真实性越高;等于0.5时,则真实性最低,无应用价值。

分类算法常见的评估指标(https://blog.csdn.net/qq_27871973/article/details/81065074)
混淆矩阵 真正类TP 假负类FN 假正类FP 真负类TN
准确率
精确率
召回率
P-R曲线
ROC
AUC

对于金融风控预测类常见的评估指标

KS(Kolmogorov-Smirnov) KS统计量由两位苏联数学家A.N. Kolmogorov和N.V. Smirnov提出。在风控中,KS常用于评估模型区分度。区分度越大,说明模型的风险排序能力(ranking ability)越强。 K-S曲线与ROC曲线类似,不同在于
ROC曲线将真正例率和假正例率作为横纵轴
K-S曲线将真正例率和假正例率都作为纵轴,横轴则由选定的阈值来充当。 公式如下:
KS=max(TPR−FPR)KS=max(TPR-FPR)KS=max(TPR−FPR)
KS不同代表的不同情况,一般情况KS值越大,模型的区分能力越强,但是也不是越大模型效果就越好,如果KS过大,模型可能存在异常,所以当KS值过高可能需要检查模型是否过拟合。以下为KS值对应的模型情况,但此对应不是唯一的,只代表大致趋势。

赛题流程

评分卡

评分卡是一张拥有分数刻度会让相应阈值的表。信用评分卡是用于用户信用的一张刻度表。评分卡是金融风控中常用的一种对于用户信用进行刻画的手段!
#评分卡 不是标准评分卡
def Score(prob,P0=600,PDO=20,badrate=None,goodrate=None):
P0 = P0
PDO = PDO
theta0 = badrate/goodrate
B = PDO/np.log(2)
A = P0 + Bnp.log(2theta0)
score = A-B*np.log(prob/(1-prob))
return score

笔记之零基础入门金融风控-贷款违约预测相关推荐

  1. 零基础入门金融风控-贷款违约预测-机器学习-数据分析

    零基础入门金融风控-贷款违约预测 一.赛题数据 赛题以预测用户贷款是否违约为任务,数据集报名后可见并可下载,该数据来自某信贷平台的贷款记录,总数据量超过120w,包含47列变量信息,其中15列为匿名变 ...

  2. 零基础入门金融风控-贷款违约预测_Task1

    贷款违约预测_Task1 零基础入门金融风控-贷款违约预测_Task1 数据概况 预测指标 零基础入门金融风控-贷款违约预测_Task1 数据概况 数据包含三部分:训练集(train.csv).测试集 ...

  3. 零基础入门金融风控-贷款违约预测-Task05——模型融合

    有幸参加了阿里云举办的零基础入门金融风控-贷款违约预测训练营.收获颇多. 每天记录一些自己之前的知识盲点,需经常温习. 第五次的学习任务,是模型融合. 一.模型融合常用方法 模型融合有常用的如下六种方 ...

  4. 阿里天池零基础入门金融风控-贷款违约预测文本处理

    阿里天池零基础入门金融风控-贷款违约预测文本处理 文本处理 日期处理 等级处理 就业年限处理 删除含有空值的行 数据归一化 踩坑 文本处理 日期处理 earliesCreditLine: 可以看到ea ...

  5. 零基础入门金融风控-贷款违约预测

    写在前面: 刚接触数据挖掘,看了几页python就跳进了这个大坑,也不知道该咋写这个博客,先瞎写着吧.介绍下自己参加的这个项目,是Datawhale和天池比赛联合发起的,我们在Datawhale组对学 ...

  6. 零基础入门金融风控-贷款违约预测-Task4 建模与调参

    此部分为零基础入门金融风控的 Task4 建模调参部分,带你来了解各种模型以及模型的评价和调参策略,欢迎大家后续多多交流. 项目地址 比赛地址 4.1 学习目标 学习在金融分控领域常用的机器学习模型 ...

  7. 天池新人赛-零基础入门金融风控-贷款违约预测-排名174

    赛题以预测用户贷款是否违约为任务,该数据来自某信贷平台的贷款记录,总数据量超过120w,包含47列变量信息,其中15列为匿名变量.从中抽取80万条作为训练集,20万条作为测试集A,20万条作为测试集B ...

  8. Datawhale学习笔记【阿里云天池 金融风控-贷款违约预测】Task2 数据分析

    阿里云天池学习赛[金融风控-贷款违约预测] 赛题数据及背景 python库的导入 国内镜像源网址及使用方法 镜像使用方法 文件读取 数据的总体了解 查看数据集中特征缺失值,唯一值等 检查缺失值 缺失值 ...

  9. 基于机器学习与深度学习的金融风控贷款违约预测

    基于机器学习与深度学习的金融风控贷款违约预测 目录 一.赛题分析 1. 任务分析 2. 数据属性 3. 评价指标 4. 问题归类 5. 整体思路 二.数据可视化分析 1. 总体数据分析 2. 数值型数 ...

最新文章

  1. mysql升级回退_Mysql 升级、用户与授权,
  2. C/C++添加设置任务计划
  3. bubble click event handling
  4. python个人网站系统_利用基于Python的Pelican打造一个自己的个人纯静态网站
  5. 679 - Dropping Balls
  6. 两个链表第一个公共节点
  7. 西瓜书+实战+吴恩达机器学习(八)监督学习之朴素贝叶斯 Naive Bayes
  8. 精密单点定位/PPP软件GAMP学习之一
  9. linux kvm装ghost镜像,kvm安装win7虚拟机
  10. RC正弦波振荡电路Ltspice仿真
  11. oracle所有自带系统表,oracle常用系统表
  12. html5微信mp3播放器代码,[微信音频播放器] html5 audio 制做的微信播放器
  13. 3G、4G、5G背后的科学含义,你真的懂吗?
  14. Windows 安装 KMS 与 MAK 的区别
  15. 【记录】克服拖延症的方法 an exploratory study to overcome procrastination.
  16. 拳头的国人动画师,是这样让《英雄联盟》里的角色变成“戏精”的
  17. 弗吉尼亚理工大学计算机科学,弗吉尼亚理工大学计算机科学研究生专业.pdf
  18. csv是什么文件(ofd是什么文件)
  19. C++ std::set<>是什么 怎么用 遍历
  20. 持续交付之一——软件交付的问题

热门文章

  1. 记一次笔试遇到leetcode原题却没a出来的经历
  2. Fujikure-FSM100P+特种光纤熔接机的那些事——第一番
  3. iphone无法更新app_如何在移动连接上进行iPhone Weather App更新
  4. ps2模拟器bios3dm_呆萌PS2模拟器bios文件下载|呆萌PS2模拟器专业版下载v3.1.2-乐游网安卓下载...
  5. 8086CPU学习笔记:8086的寻址方式
  6. SVG格式文件可以用什么软件打开?
  7. Buffer.from()
  8. 国产linux凝思4.2系统多网卡指定路由配置
  9. Electron常见问题 52 - Electron 屏蔽下载保存对话框弹窗
  10. 服务端微信小程序支付/退款详解