金融风控数据挖掘--Task1
赛题分析:
通过给定训练集数据训练得模型,利用AUC作为评测指标,预测测试集中数据评判各属性金融风险。
一.学习内容: 金融风控预测类常见的评估指标
1.ROC曲线
在信号检测理论中,接收者操作特征曲线(receiver operating characteristic curve,或者叫ROC曲线)是一种坐标图式的分析工具,用于 (1) 选择最佳的信号侦测模型、舍弃次佳的模型。 (2)在同一模型中设定最佳阈值。 在做决策时,ROC分析能不受成本、效益的影响,从而给出客观中立的建议。即当在正负样本分布发生变化时,其曲线形状能够基本保持不变。
在衡量学习器的泛化性能时,根据学习器的预测结果对样本排序,按此顺序逐个把样本作为正例进行输出,将ROC曲线假正例率(FPR)定义为x轴,真例率(TPR)定义为y轴。对于二分类的数据,可分为正类(positive)和负类(negative),有四种类型,即:
混淆矩阵
真实情况 | 预测结果 | |
正例 | 反例 | |
正例 | TP | FN |
负例 | FP | TN |
将样本被划分为正类的概率排序,其中的一个正类概率作为阈值(threshold),大于等于threshold的测试样本作为正样本,小于threshold的测试样本作为负样本。那么根据真正类率和负正类率就得到样本个数个坐标点(FPR,TPR),由此得到ROC曲线。当两个模型的ROC曲线发生交叉,很难直观的说模型更好,这时候可以用AUC来作为一个比较合理的判据。
真正类率(Sensitivity): 代表分类器预测的正类中实际正实例占所有正实例的比例。
TPR=TPTP+FNTPR=\frac{TP}{TP+FN} TPR=TP+FNTP假正类率(1-Specificity):代表分类器预测的正类中实际负实例占所有负实例的比例。
FPR=FPFP+TNFPR=\frac{FP}{FP+TN} FPR=FP+TNFP
2.AUC
AUC表示“ROC 曲线下面积”。即曲线下面积测量的是从 (0,0) 到 (1,1) 之间整个 ROC 曲线以下的整个二维面积。
- AUC = 1,是完美分类器,采用这个预测模型时,存在至少一个阈值能得出完美预测。绝大多数预测的场合,不存在完美分类器。
- 0.5 < AUC < 1,优于随机猜测。这个分类器(模型)妥善设定阈值的话,能有预测价值。
- AUC = 0.5,跟随机猜测一样(例:丢铜板),模型没有预测价值。
- AUC < 0.5,比随机猜测还差;但只要总是反预测而行,就优于随机猜测。
3.P-R曲线
P-R曲线常被用在信息提取领域,同时当我们的数据集中类别分布不均衡时我们可以用PR曲线代替ROC。
将P-R曲线查全率(Precision)定义为x轴,查准率(Recall)定义为y轴。其与ROC曲线类似,根据学习器的预测结果对样本测试集进行排序,"最可能"是正例的排在最左边,"最不可能"是正例的排最右边.按此顺序逐个把样本作为正例进行输出。
当P-R曲线越靠近右上方时,表明模型性能越好,与ROC曲线类似,在对不同模型进行比较时,若模型的PR曲线发生了交叉,则无法直接判断哪个模型更好.可以利用平衡点,即当查准率=查全率时的取值,如上图黑色线代表的模型的平衡点要大于橘色线模型代表的平衡点,表明前者优于后者,除此之外更为常用的是F1—Score,F1—Score 查准率和查全率是相互影响的,查准率升高则查全率下降,反之则下降。如果需要兼顾二者,就需要二者的结合F1—Score。
查准率(Precision): 代表正确预测为正样本(TP)占预测为正样本(TP+FP)的百分比。
Precision=TPTP+FPPrecision=\frac{TP}{TP+FP} Precision=TP+FPTP查全率(Recall): 代表正确预测为正样本(TP)占正样本(TP+FN)的百分比。
Recall=TPTP+FNRecall=\frac{TP}{TP+FN} Recall=TP+FNTP
- F1-Score :
F1-Score=21Precision+1RecallF1\text{-}Score=\frac{2}{\frac{1}{Precision}+\frac{1}{Recall}} F1-Score=Precision1+Recall12
4.K-S
KS(Kolmogorov-Smirnov)统计量是由两位苏联数学家A.N. Kolmogorov和N.V. Smirnov提出。在风控中,KS常用于评估模型区分度。区分度越大,说明模型的风险排序能力(ranking ability)越强。
将K-S曲线将真正例率和假正例率都作为y轴,x轴则由选定的阈值来充当。
- K-S:
K−S=max(TPR−FPR)K-S=max(TPR-FPR) K−S=max(TPR−FPR)
KS不同代表的不同情况,一般情况KS值越大,模型的区分能力越强,但是也不是越大模型效果就越好,如果KS过大,模型可能存在异常,所以当KS值过高可能需要检查模型是否过拟合。以下为KS值对应的模型情况,但此对应不是唯一的,只代表大致趋势。
KS(%) | 好坏区分能力 |
---|---|
20以下 | 不建议采用 |
20-40 | 较好 |
41-50 | 良好 |
51-60 | 很强 |
61-75 | 非常强 |
75以上 | 过于高,疑似存在问题 |
二.学习中遇到的问题
因为对机器学习没有基础,一开始不懂的如何计算得出(FRP,TRP),其实就是不太清楚TP,FN,FP,TN具体的含义是什么。后来明白了TP为大于等于阈值的正样本,FN为大于等于阈值的负样本,同理知FP,TN。通过公式计算就可得出样本个数的(FRP,TRP)坐标点,可描绘出ROC曲线。最后比较可知,哪一个点下为最优阈值。
另外一种方法:把横轴的刻度间隔设为1N\frac{1}{N}N1,纵轴的刻度间隔设为1P\frac{1}{P}P1,N,P分别为负样本与正样本数量。然后再根据模型的输出结果降序排列,依次遍历样本,从0开始绘制ROC曲线,每遇到一个正样本就沿纵轴方向绘制一个刻度间隔的曲线,每遇到一个负样本就沿横轴方向绘制一个刻度间隔的曲线,遍历完所有样本点以后,曲线也就绘制完成了。
利用python调库同样也可以绘制出ROC曲线,
from sklearn.metrics import roc_curve
三.学习的思考与总结
通过这次为时两天的学习,学到除均值、方差等常见方法以外的评估指标,对机器学习这一方面是刚接触,所以有很多地方理解起来比较费时间。总结起来就是ROC曲线被广泛应用于二分类问题中来评估分类器的可信度,当处理一些高度不均衡的数据集时,P-R曲线能表现出更多的信息。ROC曲线由于兼顾正例与负例,所以适用于评估分类器的整体性能,相比而言P-R曲线完全聚焦于正例。而当数据属性较多时,则采用P-R曲线为更优。
参考链接:
https://www.jianshu.com/p/2ca96fce7e81
https://www.cnblogs.com/dlml/p/4403482.html
金融风控数据挖掘--Task1相关推荐
- 【天池】金融风控数据挖掘task1
天池金融风控数据挖掘task1 1.赛题理解 赛题以预测金融风险为任务,数据集报名后可见并可下载,该数据来自某信贷平台的贷款记录,总数据量超过120w,包含47列变量信息,其中15列为匿名变量.为了保 ...
- 金融风控数据挖掘-Task1
本学习笔记为阿里云天池龙珠计划Docker训练营的学习内容,学习链接为:https://tianchi.aliyun.com/specials/activity/promotion/aicampdoc ...
- 金融风控数据挖掘 · Task 2 EDA 数据可视化
金融风控数据挖掘 · Task 2 EDA 数据可视化 一.数据载入.存储及文件格式 1. 文件格式的读写 常用的数据处理用到的库 二.数据总览 一.数据载入.存储及文件格式 1. 文件格式的读写 常 ...
- 金融风控数据挖掘-Task6
金融风控数据挖掘-Task6 一.学习知识点概要 二.学习内容 1.部分难题 2.比赛结果 三.学习问题与解答 1.小数点的意义 四.学习思考与总结 一.学习知识点概要 本文为金融风控数据竞赛的最后一 ...
- 数据挖掘实践(金融风控)——task1:赛题理解
文章目录 数据概况 数据读取 评估指标 数据概况 数据量超过120w,包含47列变量信息,其中15列为匿名变量.80万条作为训练集,20万条作为测试集A,20万条作为测试集B,变量含义如下: id 为 ...
- 阿里云天池 金融风控训练营Task1 广东工业站
Task1 赛题理解 一.学习知识点概要 本次学习先是介绍了赛题的背景和概况,题目以金融风控中的个人信贷为背景,给所给的47列特征中,根据贷款申请人的数据信息预测其是否有违约的可能,以此判断是否通过 ...
- 金融风控训练营Task1学习笔记
参考链接:https://tianchi.aliyun.com/notebook-ai/detail?spm=5176.20850282.J_3678908510.2.30a54d57TxIeDz&a ...
- 金融风控数据挖掘 · Task 5 模型融合
一.模型融合常见方法 模型融合是比赛后期上分的重要手段,特别是多人组队学习的比赛中,将不同队友的模型进行融合,可能会收获意想不到的效果哦,往往模型相差越大且模型表现都不错的前提下,模型融合后结果会有大 ...
- 数据挖掘实践(金融风控)
Task1 赛题理解 一.赛题 零基础入门金融风控-贷款违约预测 该数据来自某信贷平台的贷款记录,总数据量超过120w,包含47列变量信息,其中15列为匿名变量 训练数据总共有8万条.部分截图如下: ...
最新文章
- Kendo UI常用示例汇总(九)
- 域名判断真实ip地址
- Webpack实现按需打包Lodash的几种方法详解
- 应用程序的并行配置不正确_阿里架构师:天天高并发,达不到百万以上并发都不叫高并发...
- leetcode 729, 731, 732. My Calendar I, II, III | 729. 我的日程安排表 I, II, III(线段树)
- 4000字,25张精美交互图表,开启Plotly Express之旅!
- 从零开始学习Hadoop--第1章 Hadoop的安装
- java excel导入前台_java后台生成了一个表格,用流传到前台,请问怎么接收呀?在线等...
- MySQL LIKE 子句
- 【跃迁之路】【590天】程序员高效学习方法论探索系列(实验阶段347-2018.09.18)...
- synergy一套键鼠控制两台电脑
- 002 如何将电子版一寸照以照片的方式打印出来
- win10计算机的数字小键盘,让Win10登录时默认开启数字小键盘
- mysql实现跨库查询
- 木纹标识lisp_Lisp 中的 string 和 symbol 的区别?
- Nginx启动报错: could not open error log file: open() q unable to find local peer: 192.168.10.102:8848,
- 使用Kali linux生成木马入侵局域网安卓手机
- 《算法笔记》4.3小节——算法初步->递归
- protege的下载
- 专注中小企业 ERP 系统解决方案(源码JavaVue)