【天池】金融风控数据挖掘task1
天池金融风控数据挖掘task1
1.赛题理解
赛题以预测金融风险为任务,数据集报名后可见并可下载,该数据来自某信贷平台的贷款记录,总数据量超过120w,包含47列变量信息,其中15列为匿名变量。为了保证比赛的公平性,将会从中抽取80万条作为训练集,20万条作为测试集A,20万条作为测试集B,同时会对employmentTitle、purpose、postCode和title等信息进行脱敏。
2.赛题流程
3. 评价指标
3.1 分类算法常用
1)混淆矩阵、2)准确率(Accuracy)、精确率(Precision)、召回率(Recall)
3)F1指数、4)P-R曲线、5)AUC(包围的面积)、6)ROC(真正例率和假正例率作为横纵轴)
3.2 金融风控主题预测常用
1)KS(Kolmogorov-Smirnov)
K-S曲线与ROC曲线类似,不同在于
- ROC曲线将真正例率和假正例率作为横纵轴
- K-S曲线将真正例率和假正例率都作为纵轴,横轴则由选定的阈值来充当。
公式如下:
KS = max(TPR - FPR)
KS不同代表的不同情况,一般情况KS值越大,模型的区分能力越强,但是也不是越大模型效果就越好,如果
KS过大,模型可能存在异常,所以当KS值过高可能需要检查模型是否过拟合。以下为KS值对应的模型情况,
但此对应不是唯一的,只代表大致趋势。 - KS值<0.2,一般认为模型没有区分能力。
- KS值[0.2,0.3],模型具有一定区分能力,勉强可以接受
- KS值[0.3,0.5],模型具有较强的区分能力。
- KS值大于0.75,往往表示模型有异常。
除KS外还常用ROC和AUC
【天池】金融风控数据挖掘task1相关推荐
- 金融风控数据挖掘-Task1
本学习笔记为阿里云天池龙珠计划Docker训练营的学习内容,学习链接为:https://tianchi.aliyun.com/specials/activity/promotion/aicampdoc ...
- 阿里云天池 金融风控训练营Task1 广东工业站
Task1 赛题理解 一.学习知识点概要 本次学习先是介绍了赛题的背景和概况,题目以金融风控中的个人信贷为背景,给所给的47列特征中,根据贷款申请人的数据信息预测其是否有违约的可能,以此判断是否通过 ...
- 金融风控数据挖掘--Task1
赛题分析: 通过给定训练集数据训练得模型,利用AUC作为评测指标,预测测试集中数据评判各属性金融风险. 一.学习内容: 金融风控预测类常见的评估指标 1.ROC曲线 在信号检测理论中,接收者操作特征曲 ...
- 金融风控数据挖掘 · Task 2 EDA 数据可视化
金融风控数据挖掘 · Task 2 EDA 数据可视化 一.数据载入.存储及文件格式 1. 文件格式的读写 常用的数据处理用到的库 二.数据总览 一.数据载入.存储及文件格式 1. 文件格式的读写 常 ...
- 金融风控数据挖掘-Task6
金融风控数据挖掘-Task6 一.学习知识点概要 二.学习内容 1.部分难题 2.比赛结果 三.学习问题与解答 1.小数点的意义 四.学习思考与总结 一.学习知识点概要 本文为金融风控数据竞赛的最后一 ...
- 阿里天池金融风控baseline
前言 比赛地址链接 由于本次为基础赛,所以分为正式赛和长期赛,正式赛时间由于和另外重量级比赛冲突,所以做的大佬很少,本人有幸通过自己写的baseline冲到了Rank10,其实代码很少,也简单,也没有 ...
- 数据挖掘实践(金融风控)——task1:赛题理解
文章目录 数据概况 数据读取 评估指标 数据概况 数据量超过120w,包含47列变量信息,其中15列为匿名变量.80万条作为训练集,20万条作为测试集A,20万条作为测试集B,变量含义如下: id 为 ...
- 天池-金融风控训练营-task5-模型融合
1. 学习知识概要 2. 学习内容 2.1 stacking\blending详解 REF: 零基础数据挖掘入门系列(六) - 模型的融合技术大总结与结果部署_Miracle8070-CSDN博客思维 ...
- Datawhale学习笔记【阿里云天池 金融风控-贷款违约预测】Task2 数据分析
阿里云天池学习赛[金融风控-贷款违约预测] 赛题数据及背景 python库的导入 国内镜像源网址及使用方法 镜像使用方法 文件读取 数据的总体了解 查看数据集中特征缺失值,唯一值等 检查缺失值 缺失值 ...
最新文章
- Linux下配置JavaWeb环境(持续更新其他软件)
- Machine Learning Techniques -6-Support Vector Regression
- 从0开始学习GitHub系列之「Git 速成」
- Python3之set, frozenset记录
- 新的Google Lyra音频编解码器对实时视频流意味着什么?
- linux查看redis索引,linux的redis操作命令
- java zip压缩_压缩工具
- windows双屏切换
- C++笔记整理(参考整理自各大博客)
- 压力测试与负载测试的区别
- c++ byte指针长度_valgrind诊断C/C++内存泄漏
- 计算机一级插入页眉,计算机一级考试,设置页眉为“汉字的交换码”
- cobar mysql_mysql分布式中间件cobar
- 如何朴实无华的双开微信?
- 使用conda管理python环境
- spring事务管理器的源码和理解
- C. Multiples of Length 思维构造
- L1-023 输出GPLT (20分) 给定一个长度不超过10000的、仅由英文字母构成的字符串。请将字符重新调整顺序,按GPLTGPLT....这样的顺序输出,并忽略其它字符。当然,四种字符(不区分
- 抖音恶心的整人代码~~~VBS代码
- [史上最全]笔记本更换内存条和固态硬盘重装系统教程
热门文章
- 输入三个int型的数据,放入到a,b,c三个变量中去,使用条件结构与交换逻辑将这三个变量中的值从小到大排列。
- JAVA 解决 unable to find valid certification path to requested target 证书认证
- 424 B. Megacity
- python 画图代码及解释_python画图(图例、网格、注释) - v2
- 【智能零售】2017年无人零售行业发展现状及趋势盘点
- 手把手教你如何利用Python薅羊毛(快手极速版)
- 对于Ubuntu服务器杀毒的一次记录
- esri-loader加载 Arcgis 地图
- 【二开】Jeecgboot Online表单js增强用法记录
- html5捕鱼达人游戏