阿里云天池 金融风控训练营Task1 广东工业站
Task1 赛题理解
一、学习知识点概要
本次学习先是介绍了赛题的背景和概况,题目以金融风控中的个人信贷为背景,给所给的47列特征中,根据贷款申请人的数据信息预测其是否有违约的可能,以此判断是否通过贷款。随后介绍了比赛中的评价指标,出现的相关知识点有:
1.混淆矩阵(Confuse Matrix)
2.准确率(Accuracy)
3.精确率(Precision)
4.召回率(Recall)
5.F1 Score
6.P-R曲线(Precision-Recall Curve)
7.ROC(Receiver Operating Characteristic)
8.AUC(Area Under Curve)
9.KS(Kolmogorov-Smirnov)
二、学习内容
1.混淆矩阵(Confuse Matrix)
混淆矩阵是什么呢?混淆矩阵是数据科学、数据分析和机器学习中总结分类模型预测结果的情形分析表,以矩阵的形式将数据集中的记录按照真实的类别与分类模型作出的分类判断两个标准进行汇总。这个名字来源于它可以非常容易的表明多个类别是否有混淆。用于得出分类正确和错误的样本数量。一般的混淆矩阵是n×n的。
在我们要解的二元分类问题(即判断一个东西是不是我们所认为的东西)中,混淆矩阵通常是2×2的。我们可以将分类的结果归为正类和负类(或阳性和阴性),先用我们构建出来的预测模型将样本进行分类,然后再查看样本的真实分类,将对比结果放入矩阵中。判断结果归类如下:
- (1)若一个实例是正类,并且被预测为正类,即为真正类TP(True Positive )
- (2)若一个实例是正类,但是被预测为负类,即为假负类FN(False Negative )
- (3)若一个实例是负类,但是被预测为正类,即为假正类FP(False Positive )
- (4)若一个实例是负类,并且被预测为负类,即为真负类TN(True Negative )
矩阵中数据的填写可看下图
矩阵中的数据便为被判断为该种结果的样本个数。
2.混淆矩阵的延伸概念
单用一个混淆矩阵无法对模型进行准确全面的评价,由此延伸出与混淆矩阵相关的概念,有:准确率(Accuracy)、精确率(Precision)、召回率(Recall)、F1 Score、P-R曲线
其计算公式如下:
注意:准确率并不适用于样本不均衡的情况
关于F1 Score的作用,精确率和召回率是相互影响的,精确率升高则召回率下降,召回率升高则精确率下降,如果需要兼顾二者,就需要精确率、召回率的结合F1 Score
P-R曲线:P-R曲线是描述精确率和召回率变化的曲线,召回率为横轴,精确率为纵轴。模型在为样本分类时会有一个置信度,即表示该样本是正样本的概率。通过置信度就可以对所有样本进行排序,再逐个样本的选择一个阈值,在该样本之前的都属于正例,该样本之后的都属于负例。每一个样本作为划分阈值时,都可以计算对应的precision和recall,那么就可以以此绘制曲线。
3.ROC(Receiver Operating Characteristic)
ROC为一种曲线,以两种新出现的指标分别作为横轴和纵轴。ROC将假正例率(FPR)定义为 X 轴,真正例率(TPR)定义为 Y 轴。
FPR:在所有实际为阴性的样本中,被错误地判断为阳性之比率 。
TPR:在所有实际为阳性的样本中,被正确地判断为阳性之比率。
ROC曲线的作用:
I.ROC曲线能很容易的查出任意阈值对学习器的泛化性能影响。
II.有助于选择最佳的阈值(如何选择本次不做描述)。ROC曲线越靠近左上角,模型的准确性就越高。最靠近左上角的ROC曲线上的点是分类错误最少的最好阈值,其假正例和假反例总数最少。
III.可以对不同的学习器比较性能。将各个学习器的ROC曲线绘制到同一坐标中,直观地鉴别优劣,靠近左上角的ROC曲所代表的学习器准确性最高。
4.AUC(Area Under Curve)
AUC(Area Under Curve)被定义为ROC曲线下的面积。我们往往使用AUC值作为模型的评价标准是因为很多时候ROC曲线并不能清晰的说明哪个预测模型的效果更好,而作为一个数值,对应AUC更大的预测模型效果更好。
AUC就是曲线下面积,在比较不同的分类模型时,可以将每个模型的ROC曲线都画出来,比较曲线下面积做为模型优劣的指标。ROC 曲线下方的面积(Area under the Curve),其意义是:
(1)因为是在1x1的方格里求面积,AUC必在0~1之间。
(2)假设阈值以上是阳性,以下是阴性;
(3)若随机抽取一个阳性样本和一个阴性样本,分类器正确判断阳性样本的值高于阴性样本的概率 = AUC 。
(4)简单说:AUC值越大的分类器,正确率越高。
从AUC 判断分类器(预测模型)优劣的标准:
AUC = 1,是完美分类器。
AUC = [0.85, 0.95], 效果很好
AUC = [0.7, 0.85], 效果一般
AUC = [0.5, 0.7],效果较低,但用于预测股票已经很不错了
AUC = 0.5,跟随机猜测一样(例:丢铜板),模型没有预测价值
5.KS(Kolmogorov-Smirnov)
在数理统计中,可用于检验数据是否符合某种分布。在风控中,KS常用于评估模型区分度。区分度越大,说明模型的风险排序能力(ranking ability)越强。 K-S曲线与ROC曲线类似,不同在于K-S曲线将真正例率和假正例率都作为纵轴,横轴则由选定的阈值来充当。 公式为:
一般情况KS值越大,模型的区分能力越强,但是也不是越大模型效果就越好,如果KS过大,模型可能存在异常。一般的评判标准如下:
KS | 区分能力 |
0.2以下 | 基本无区分能力 |
[0.2,0.4] | 一般 |
(0.4,0.5] | 良好 |
(0.5,0.6] | 较强 |
(0.6,0.75] | 非常强 |
0.75以上 | 过高,存疑 |
三、学习问题与解答
初次看Task1的时候,一下子冒出很多没见过的知识和名词感觉头都晕乎乎的。虽然里面已经列出了好一些概念,但是它的定义、用来干什么、怎么用都还需要自己在去查,去学习。比如一开始看到混淆矩阵,TP、TN、FN、FP到底是什么意思单看是Task1很难看明白,在百度上搜了之后也还是迷迷糊糊,最后还是查找了各种文章学习之后才知道混淆矩阵的作用以及混淆矩阵该怎么样写。
现在出现的问题还有很多,比如后面的Python代码还没看明白,P-R曲线的阈值怎么选取,以及选取阈值出来的作用是什么都不是很明白,对这些知识还没有系统的了解。
四、学习思考与总结
思考下来就是需要学习的东西还有很多,虽说是金融风控0基础的训练营,但是对我这种在Task1里出现的知识和Python真正0基础的人来说挑战还是蛮大的。了解到的这些知识也不系统,而且也是一知半解,以后还需要多多与别人交流和学习。
阿里云天池 金融风控训练营Task1 广东工业站相关推荐
- Datawhale学习笔记【阿里云天池 金融风控-贷款违约预测】Task2 数据分析
阿里云天池学习赛[金融风控-贷款违约预测] 赛题数据及背景 python库的导入 国内镜像源网址及使用方法 镜像使用方法 文件读取 数据的总体了解 查看数据集中特征缺失值,唯一值等 检查缺失值 缺失值 ...
- Datawhale 阿里云天池LeetCode基础训练营 c++ Code
Datawhale & 阿里云天池LeetCode基础训练营 Task1: 数组 课后习题 1. 删除有序数组中的重复项(Easy) 题意: 给一个有序的数组,其中有若干数是重复出现的,如 [ ...
- 【组队学习】【34期】阿里云天池在线编程训练营
阿里云天池在线编程训练营 航路开辟者:陈信达.杨世超.赵子一.马燕鹏 领航员:武帅.初晓宇.叶前坤.邱广坤.朱松青 航海士:宁彦吉.肖桐.汪超.陈信达.杨世超.赵子一.武帅.初晓宇.叶前坤.邱广坤.朱 ...
- 天池-金融风控训练营-task5-模型融合
1. 学习知识概要 2. 学习内容 2.1 stacking\blending详解 REF: 零基础数据挖掘入门系列(六) - 模型的融合技术大总结与结果部署_Miracle8070-CSDN博客思维 ...
- 金融风控训练营Task1学习笔记
参考链接:https://tianchi.aliyun.com/notebook-ai/detail?spm=5176.20850282.J_3678908510.2.30a54d57TxIeDz&a ...
- 天池-金融风控训练营-task2-数据分析
一.学习知识概要 主要介绍了eda可以从哪些方面入手: 1. 数据整体情况 多少行.多少列.各列的数据缺失情况(对存在缺失的列,可以查看缺失率).各列的数据类型.各列的平均值等基本统计量.数据的首尾几 ...
- 【天池】金融风控数据挖掘task1
天池金融风控数据挖掘task1 1.赛题理解 赛题以预测金融风险为任务,数据集报名后可见并可下载,该数据来自某信贷平台的贷款记录,总数据量超过120w,包含47列变量信息,其中15列为匿名变量.为了保 ...
- 阿里云天池 Python训练营Task1:从变量到异常处理
本学习笔记为阿里云天池龙珠计划Python训练营的学习内容,学习链接为:https://tianchi.aliyun.com/specials/promotion/aicamppython?spm=5 ...
- 【阿里云天池龙珠计划SQL训练营】SQL复习Task3
本笔记为阿里云天池龙珠计划SQL训练营的学习内容,链接为:https://tianchi.aliyun.com/specials/promotion/aicampsql: 目录 Task03:复杂查询 ...
最新文章
- Android移动开发之【Android实战项目】渐变的TextView小漂亮代码
- hex editor怎么搜索代码_代码审计从入门到放弃(三) phplimit
- 学习 Android O HIDL
- SDRAM工作的大体流程
- Harris角点检测+sift描述匹配
- 自定义搜索框,带提示信息的搜索框
- git学习4--公钥的配置
- Delphi2010的组件/控件
- 易接SDK流程记录以及AndroidManifest解析(无干货)
- python实现CRAPS赌博游戏。
- 计算机中堆栈指针的作用,堆栈指针是什么_有什么作用
- e的ax次方怎么求导
- ETL——实现Kettle作业定时任务
- git把一个分支的commit merge到另外一个分支
- Ubuntu系统中如何删除一个用户
- IDE、SCSI、SATA几种常见的硬盘接口
- linux 软件包kbd 位置,1.10.42 6.42. Kbd-1.12 - Linux 系统构建指南
- CentOS7.3+python:zipimport.ZipImportError: can't decompress data; zlib not available报错
- Hadoop全分布式部署 - CentOS(结尾附视频)
- 03 body标签中的相关标签
热门文章
- 07-对图像进行膨胀操作
- C++11 std::shared_ptr的std::move()移动语义底层分析
- python 课程设计 夏敏捷_Python课程设计(微课视频版21世纪高等学校通识教育规划教材)/计算机技术入门丛书...
- uva 10570—— Meeting with Aliens
- 简陋版C语言仿真通讯录之动态内存开辟版本
- 多益网络 视频面试面试总结20180816
- 在使用 python 封装的进程池 from concurrent.futures import ProcessPoolExecutor 遇到的问题
- Linux网络编程——tcp并发服务器(poll实现)
- struct stat结构体简介
- 使用指针在函数中交换数值