“魔幻杯”风控算法大赛

背景介绍

国内贷款公司公开了国内贷款行业的风险数据

1、信用违约标签(因变量)

2、建模所需的基础与加工字段(自变量)

3、相关用户网络行为原始数据

为保护借款人隐私及公司知识产权,数据字段已脱敏处理

数据简介

数据编码格式GBK

初赛数据3万条训练集和2万条测试集

复赛新增3万条数据,共模型优化,并新增1万条数据做测试集

所有训练集,测试集都包含3个csv文件

数据信息

Master(每一行代变一个成功借贷样本,每个样本包含200多个各类字段)

Log_info (借款人登录信息)

Update_info (修改贷款人信息)

处理过程

1、数据清洗

对缺失值的多维度处理

1)按列统计缺失值个数,得到确实比率

2)按行统计样本属性缺失值个数,将缺失值个数从小到大排序

对离群点的剔除方法

原始数据中有 190 维数值型特征,通过计算每个数值型特征的标准差,剔除部分变化很小的特征,下表列出的 15 个特征是标准差接近于 0 的,剔除这 15 维特征

离群点剔除

在原始数据上训练 xgboost,用得到的 xgb 模型输出特征的重要性,取最重 要的前 20 个特征(如图 3 所示),统计每个样本在这20 个特征上的缺失值 个数,将缺失值个数⼤于 10 的样本作为离群点。

其余处理

  做一些人工干预,归一化,哈希处理

文本处理

将人理解的转成机器能理解的

2、特征工程(raw data提取对最后有帮助的信息,特征决定模型最终上限)

将连续值离散化,数值转log^3,ohe-hot图热编码

地理信息处理

统计每个省 份和城市的违约率

违约率最⼤的⼏个省 份或直辖市为四川、湖南、湖北、吉林、天津、⼭东 构建 6 个⼆值特征:“是否为四川省”、“是否为湖南省”....“是否为 ⼭东省”,

按城市等级合并

类别型特征取值个数太多时,独热编码后得到太⾼维的稀疏特征。 除了采用上面提到的特征选择⽅法外,还可以使用了合并变量的⽅法。按照 城市等级,将类别变量合并,例如⼀ 线城市北京、上海、⼴州、深圳合并, 赋值为 1,同样地,⼆线城市合并为 2,三线城市合 并为 3

经纬度特征的引入

以上对地理位置信息的处理,都是基于类别型的,收集各个城市的经纬度, 将城市名用经纬度替换,这样就可以将类别型的变量转化为数值型的变量, 比如北京市,用 经纬度(39.92,116.46)替换,得到北纬和东经两个数值型特 征。加⼊经纬度后,线下的 cross validation 有千分位的提升

城市特征向量化

将城市特征里的城市计数,并取 Log,然后等值离散化到 6~10 个区间内。 如下图,将 UserInfo_2 这个特征里面的 325 个城市离散为一个 6 维向量。 向量“100000”表 示该城市位于第一个区间。

地理位置差异特征

如下图所示,1,2,4,6 列都是城市。我们构建⼀个城市差异的特征, 比如 diff_12 表示 1,2 列的城市是否相同。 如此构建 diff_12,diff_14,diff_16,diff_24,diff_26,diff_46 这 6 个城市差异的特征

成交时间

listinginfo做几种处理,一种是直接将其当作连续值特征,一种是离散化处理每 10 天作 为⼀个区间,也就是将日期 0~10 离散化为1,日期 11~20 离散化为2

类别型编码

除掉上述特殊生成的特征,其余都做独热编码

组合特征

组合特征需自己尝试, 相除,相加

Updateinfo表特征

根据提供的修改信息表,从中抽取了用户的修改信息特征,比 如:修改信息次数, 修改信息时间到成交时间的跨度,每种信 息的修改次数等等特征。

Loginfo表特征

类似地,从登录信息表里提取了用户的登录信息特征,比如登 录天数,平均登录间 隔以及每种操作代码的次数等。

排序特征

对原始数值型数据按从小到大排序,得到排序特征,排序特征对异常数据有更强鲁棒性,使模型更加稳定,降低过拟合风险

3、特征选择

Xgboost重要度排序

除采取降维算法外,也可通过特征选择降低特征维度

特征选择方法:

最大信息系数(MIC)

皮尔森相关系数(衡量变量间的线性相关性)

正则化方法(L1,L2)

基于模型的特征排序方法(最高效),模型学习的过程和特征选择的过程是同时进⾏ 的,因此采用这种 ⽅法,基于 xgboost 来做特征选择,xgboost 模 型训练完成后可以输出特征的重要性,据此可以保留 Top N 个特 征,从⽽达到特征选择的目的。

4、类别不均衡处理

1、在训练模型时设置类别权重,即代价敏感学习

2、过采样

5 、模型设计与优化

1、Logistic regression + L1正则化

2、XGBoost + bagging

3、Large--scale SVM

4、多模blending

blending以不同权重将多个模型组合

5、模型融合

项目整体思路:

首先数据清洗,对缺失值的多维度处理,对离散点的剔除方法以及对空格字符的处理

其次特征工程,包含对地理位置的特征构建,成交时间特征,类别特征编码,组合特征构建,Updatainfo和Loginfo表的特征提取

再次特征选择,采用XGboost对特征重要性排序

然后处理类别的不平衡度,采用代价敏感学习和过采样

最后模型设计与分析,采用逻辑回归模型,数据挖掘大杀器xgboost,large-scale svm,模型融合

评估指标AUC,本质是排序优化问题,模型顶层融合采用RANK_AVG

Kaggle—风控相关比赛相关推荐

  1. 【综述】各类人工智能大数据相关比赛

    随着近几年人工智能和大数据的快速发展和应用,使得相应的工智能&大数据相关比赛比赛近几年火热了起来,下面就我知道到的人工智能&大数据相关比赛,为大家简要说下,感兴趣的可以参加一些比赛,锻 ...

  2. Kaggle新上比赛:Google AI发起地域包容性图像识别竞赛

    (欢迎关注"我爱计算机视觉"公众号,一个有价值有深度的公众号~) 昨天Kaggle新上了一个关于图像识别的比赛,Google AI发起了地域包容性图像识别竞赛(Inclusive ...

  3. Kaggle新上比赛:胸部X光片肺炎检测

    (欢迎关注"我爱计算机视觉"公众号,一个有价值有深度的公众号~) 今天北美放射学会(RSNA®)联合Kaggle发起了医学图像肺炎检测的比赛.医学图像中的肺炎视觉信号,表现为胸部X ...

  4. Kaggle新上比赛:空客公司卫星图像船体分割

    今天Kaggle新上了一个计算机视觉目标分割方面的比赛(Airbus Ship Detection Challenge, Find ships on satellite images as quick ...

  5. 【数据竞赛】Kaggle知识点:比赛类型介绍

    在Kaggle平台上,经常有好多个比赛可供选择.如下图所示,为正在进行比赛的截图.那么对于入门同学(从没参加过一次Kaggle比赛)如何选择一场适合的比赛呢? 本文将对Kaggle平台上的比赛按照类型 ...

  6. 国内常见与人工智能(深度学习、机器学习)相关比赛合集

    国内常见与人工智能(深度学习.机器学习)相关比赛合集 ​ 以下比赛一般最近一年一次,一届一届的办,不过在我们学校都不算ABC类,但在要继续走一下还是挺有用的,当然钱也比普通比赛奖励的多 一.[第五届中 ...

  7. 金融风控相关的知识点

    金融风控相关的知识点 对于金融风控预测类常见的评估指标如下 KS(Kolmogorov-Smirnov) KS统计量由两位苏联数学家A.N. Kolmogorov和N.V. Smirnov提出.在风控 ...

  8. 计算机视觉相关比赛,竞赛 | Kaggle上有哪些有趣又多金的计算机视觉类比赛?

    原标题:竞赛 | Kaggle上有哪些有趣又多金的计算机视觉类比赛? 本文阅读时间约5分钟 如今计算机视觉已经成为人工智能领域的热门研究对象,很多小伙伴都想通过一些有效的途径来学习和运用所学知识,有什 ...

  9. Kaggle时间序列预测相关比赛以及代码

    1.预测商品销量比赛 代码1:使用LSTM https://www.kaggle.com/code/sanjaylalwani/lstm-predict-sales 代码2:传统方法AR, MA an ...

最新文章

  1. linux文件目录操作实验报告,Linux操作系统实验4文件和目录操作
  2. Java 7中的Try-with-resources
  3. C# XML的序列化与反序列化
  4. 计算机鼠标介绍教学反思,《玩转鼠标》教学反思
  5. 五大新品+两大黑科技,看华为云如何升级基础设施让用户“躺平”
  6. Mike Krueger 加入Mono团队
  7. 漫过花园洋房里的浓烟
  8. 用户故事Invest原则、敏捷与完整的需求
  9. windows update 离线包下载
  10. 985高校硕导跳槽高中当老师,博士扎堆中小学,是内卷还是进步?
  11. 怎么用手机修改图片大小?在线修改图片的方法?
  12. CODESYS Automation Server
  13. openflow pox操作命令
  14. App中WebView网页加载优化实战干货
  15. 供应链管理环境下,企业采购管理面临哪些要求?
  16. 计算机应用新媒体是什么,新媒体概念,什么是新媒体
  17. # 技术栈知识点巩固——Js
  18. 准确曝光一学就会 数码相机曝光的秘诀
  19. 英辞流——坚若金刚与穿行无碍:物质的三态
  20. npm ERR! code EINTEGRITY

热门文章

  1. 鸿蒙系统无缘华为手机,华为手机无缘鸿蒙系统!任正非隐藏锋芒,谷歌“逃过一劫”...
  2. echarts data 赋值
  3. 按要求编写一个Java应用程序程序: (1)定义一个接口CanFly,描述会飞的方法public void fly(); (2)分别定义类飞机和鸟,实现CanFly接
  4. c语言中int作用,c语言中int的用法(5页)-原创力文档
  5. 浅谈Prim,Kruskal最小生成树算法
  6. 3、HashMap、HashTable和ConcurrentHashMap的区别?
  7. 如何快速绘制XRD标准图
  8. Word中批量制作录取通知书amp;工资条
  9. 多项式(Polynomial)的运算——利用单链表
  10. IDL实现火灾监测与火点提取