天池金融风控数据挖掘task1

1.赛题理解

赛题以预测金融风险为任务,数据集报名后可见并可下载,该数据来自某信贷平台的贷款记录,总数据量超过120w,包含47列变量信息,其中15列为匿名变量。为了保证比赛的公平性,将会从中抽取80万条作为训练集,20万条作为测试集A,20万条作为测试集B,同时会对employmentTitle、purpose、postCode和title等信息进行脱敏。

2.赛题流程

3. 评价指标

3.1 分类算法常用

1)混淆矩阵、2)准确率(Accuracy)、精确率(Precision)、召回率(Recall)
3)F1指数、4)P-R曲线、5)AUC(包围的面积)、6)ROC(真正例率和假正例率作为横纵轴)

3.2 金融风控主题预测常用

1)KS(Kolmogorov-Smirnov)
K-S曲线与ROC曲线类似,不同在于

  1. ROC曲线将真正例率和假正例率作为横纵轴
  2. K-S曲线将真正例率和假正例率都作为纵轴,横轴则由选定的阈值来充当。
    公式如下:
    KS = max(TPR - FPR)
    KS不同代表的不同情况,一般情况KS值越大,模型的区分能力越强,但是也不是越大模型效果就越好,如果
    KS过大,模型可能存在异常,所以当KS值过高可能需要检查模型是否过拟合。以下为KS值对应的模型情况,
    但此对应不是唯一的,只代表大致趋势。
  3. KS值<0.2,一般认为模型没有区分能力。
  4. KS值[0.2,0.3],模型具有一定区分能力,勉强可以接受
  5. KS值[0.3,0.5],模型具有较强的区分能力。
  6. KS值大于0.75,往往表示模型有异常。
    除KS外还常用ROC和AUC

【天池】金融风控数据挖掘task1相关推荐

  1. 金融风控数据挖掘-Task1

    本学习笔记为阿里云天池龙珠计划Docker训练营的学习内容,学习链接为:https://tianchi.aliyun.com/specials/activity/promotion/aicampdoc ...

  2. 阿里云天池 金融风控训练营Task1 广东工业站

    Task1  赛题理解 一.学习知识点概要 本次学习先是介绍了赛题的背景和概况,题目以金融风控中的个人信贷为背景,给所给的47列特征中,根据贷款申请人的数据信息预测其是否有违约的可能,以此判断是否通过 ...

  3. 金融风控数据挖掘--Task1

    赛题分析: 通过给定训练集数据训练得模型,利用AUC作为评测指标,预测测试集中数据评判各属性金融风险. 一.学习内容: 金融风控预测类常见的评估指标 1.ROC曲线 在信号检测理论中,接收者操作特征曲 ...

  4. 金融风控数据挖掘 · Task 2 EDA 数据可视化

    金融风控数据挖掘 · Task 2 EDA 数据可视化 一.数据载入.存储及文件格式 1. 文件格式的读写 常用的数据处理用到的库 二.数据总览 一.数据载入.存储及文件格式 1. 文件格式的读写 常 ...

  5. 金融风控数据挖掘-Task6

    金融风控数据挖掘-Task6 一.学习知识点概要 二.学习内容 1.部分难题 2.比赛结果 三.学习问题与解答 1.小数点的意义 四.学习思考与总结 一.学习知识点概要 本文为金融风控数据竞赛的最后一 ...

  6. 阿里天池金融风控baseline

    前言 比赛地址链接 由于本次为基础赛,所以分为正式赛和长期赛,正式赛时间由于和另外重量级比赛冲突,所以做的大佬很少,本人有幸通过自己写的baseline冲到了Rank10,其实代码很少,也简单,也没有 ...

  7. 数据挖掘实践(金融风控)——task1:赛题理解

    文章目录 数据概况 数据读取 评估指标 数据概况 数据量超过120w,包含47列变量信息,其中15列为匿名变量.80万条作为训练集,20万条作为测试集A,20万条作为测试集B,变量含义如下: id 为 ...

  8. 天池-金融风控训练营-task5-模型融合

    1. 学习知识概要 2. 学习内容 2.1 stacking\blending详解 REF: 零基础数据挖掘入门系列(六) - 模型的融合技术大总结与结果部署_Miracle8070-CSDN博客思维 ...

  9. Datawhale学习笔记【阿里云天池 金融风控-贷款违约预测】Task2 数据分析

    阿里云天池学习赛[金融风控-贷款违约预测] 赛题数据及背景 python库的导入 国内镜像源网址及使用方法 镜像使用方法 文件读取 数据的总体了解 查看数据集中特征缺失值,唯一值等 检查缺失值 缺失值 ...

最新文章

  1. Linux下配置JavaWeb环境(持续更新其他软件)
  2. Machine Learning Techniques -6-Support Vector Regression
  3. 从0开始学习GitHub系列之「Git 速成」
  4. Python3之set, frozenset记录
  5. 新的Google Lyra音频编解码器对实时视频流意味着什么?
  6. linux查看redis索引,linux的redis操作命令
  7. java zip压缩_压缩工具
  8. windows双屏切换
  9. C++笔记整理(参考整理自各大博客)
  10. 压力测试与负载测试的区别
  11. c++ byte指针长度_valgrind诊断C/C++内存泄漏
  12. 计算机一级插入页眉,计算机一级考试,设置页眉为“汉字的交换码”
  13. cobar mysql_mysql分布式中间件cobar
  14. 如何朴实无华的双开微信?
  15. 使用conda管理python环境
  16. spring事务管理器的源码和理解
  17. C. Multiples of Length 思维构造
  18. L1-023 输出GPLT (20分) 给定一个长度不超过10000的、仅由英文字母构成的字符串。请将字符重新调整顺序,按GPLTGPLT....这样的顺序输出,并忽略其它字符。当然,四种字符(不区分
  19. 抖音恶心的整人代码~~~VBS代码
  20. [史上最全]笔记本更换内存条和固态硬盘重装系统教程

热门文章

  1. 输入三个int型的数据,放入到a,b,c三个变量中去,使用条件结构与交换逻辑将这三个变量中的值从小到大排列。
  2. JAVA 解决 unable to find valid certification path to requested target 证书认证
  3. 424 B. Megacity
  4. python 画图代码及解释_python画图(图例、网格、注释) - v2
  5. 【智能零售】2017年无人零售行业发展现状及趋势盘点
  6. 手把手教你如何利用Python薅羊毛(快手极速版)
  7. 对于Ubuntu服务器杀毒的一次记录
  8. esri-loader加载 Arcgis 地图
  9. 【二开】Jeecgboot Online表单js增强用法记录
  10. html5捕鱼达人游戏