Kaggle—风控相关比赛
“魔幻杯”风控算法大赛
背景介绍
国内贷款公司公开了国内贷款行业的风险数据
1、信用违约标签(因变量)
2、建模所需的基础与加工字段(自变量)
3、相关用户网络行为原始数据
为保护借款人隐私及公司知识产权,数据字段已脱敏处理
数据简介
数据编码格式GBK
初赛数据3万条训练集和2万条测试集
复赛新增3万条数据,共模型优化,并新增1万条数据做测试集
所有训练集,测试集都包含3个csv文件
数据信息
Master(每一行代变一个成功借贷样本,每个样本包含200多个各类字段)
Log_info (借款人登录信息)
Update_info (修改贷款人信息)
处理过程
1、数据清洗
对缺失值的多维度处理
1)按列统计缺失值个数,得到确实比率
2)按行统计样本属性缺失值个数,将缺失值个数从小到大排序
对离群点的剔除方法
原始数据中有 190 维数值型特征,通过计算每个数值型特征的标准差,剔除部分变化很小的特征,下表列出的 15 个特征是标准差接近于 0 的,剔除这 15 维特征
离群点剔除
在原始数据上训练 xgboost,用得到的 xgb 模型输出特征的重要性,取最重 要的前 20 个特征(如图 3 所示),统计每个样本在这20 个特征上的缺失值 个数,将缺失值个数⼤于 10 的样本作为离群点。
其余处理
做一些人工干预,归一化,哈希处理
文本处理
将人理解的转成机器能理解的
2、特征工程(raw data提取对最后有帮助的信息,特征决定模型最终上限)
将连续值离散化,数值转log^3,ohe-hot图热编码
地理信息处理
统计每个省 份和城市的违约率
违约率最⼤的⼏个省 份或直辖市为四川、湖南、湖北、吉林、天津、⼭东 构建 6 个⼆值特征:“是否为四川省”、“是否为湖南省”....“是否为 ⼭东省”,
按城市等级合并
类别型特征取值个数太多时,独热编码后得到太⾼维的稀疏特征。 除了采用上面提到的特征选择⽅法外,还可以使用了合并变量的⽅法。按照 城市等级,将类别变量合并,例如⼀ 线城市北京、上海、⼴州、深圳合并, 赋值为 1,同样地,⼆线城市合并为 2,三线城市合 并为 3
经纬度特征的引入
以上对地理位置信息的处理,都是基于类别型的,收集各个城市的经纬度, 将城市名用经纬度替换,这样就可以将类别型的变量转化为数值型的变量, 比如北京市,用 经纬度(39.92,116.46)替换,得到北纬和东经两个数值型特 征。加⼊经纬度后,线下的 cross validation 有千分位的提升
城市特征向量化
将城市特征里的城市计数,并取 Log,然后等值离散化到 6~10 个区间内。 如下图,将 UserInfo_2 这个特征里面的 325 个城市离散为一个 6 维向量。 向量“100000”表 示该城市位于第一个区间。
地理位置差异特征
如下图所示,1,2,4,6 列都是城市。我们构建⼀个城市差异的特征, 比如 diff_12 表示 1,2 列的城市是否相同。 如此构建 diff_12,diff_14,diff_16,diff_24,diff_26,diff_46 这 6 个城市差异的特征
成交时间
listinginfo做几种处理,一种是直接将其当作连续值特征,一种是离散化处理每 10 天作 为⼀个区间,也就是将日期 0~10 离散化为1,日期 11~20 离散化为2
类别型编码
除掉上述特殊生成的特征,其余都做独热编码
组合特征
组合特征需自己尝试, 相除,相加
Updateinfo表特征
根据提供的修改信息表,从中抽取了用户的修改信息特征,比 如:修改信息次数, 修改信息时间到成交时间的跨度,每种信 息的修改次数等等特征。
Loginfo表特征
类似地,从登录信息表里提取了用户的登录信息特征,比如登 录天数,平均登录间 隔以及每种操作代码的次数等。
排序特征
对原始数值型数据按从小到大排序,得到排序特征,排序特征对异常数据有更强鲁棒性,使模型更加稳定,降低过拟合风险
3、特征选择
Xgboost重要度排序
除采取降维算法外,也可通过特征选择降低特征维度
特征选择方法:
最大信息系数(MIC)
皮尔森相关系数(衡量变量间的线性相关性)
正则化方法(L1,L2)
基于模型的特征排序方法(最高效),模型学习的过程和特征选择的过程是同时进⾏ 的,因此采用这种 ⽅法,基于 xgboost 来做特征选择,xgboost 模 型训练完成后可以输出特征的重要性,据此可以保留 Top N 个特 征,从⽽达到特征选择的目的。
4、类别不均衡处理
1、在训练模型时设置类别权重,即代价敏感学习
2、过采样
5 、模型设计与优化
1、Logistic regression + L1正则化
2、XGBoost + bagging
3、Large--scale SVM
4、多模blending
blending以不同权重将多个模型组合
5、模型融合
项目整体思路:
首先数据清洗,对缺失值的多维度处理,对离散点的剔除方法以及对空格字符的处理
其次特征工程,包含对地理位置的特征构建,成交时间特征,类别特征编码,组合特征构建,Updatainfo和Loginfo表的特征提取
再次特征选择,采用XGboost对特征重要性排序
然后处理类别的不平衡度,采用代价敏感学习和过采样
最后模型设计与分析,采用逻辑回归模型,数据挖掘大杀器xgboost,large-scale svm,模型融合
评估指标AUC,本质是排序优化问题,模型顶层融合采用RANK_AVG
Kaggle—风控相关比赛相关推荐
- 【综述】各类人工智能大数据相关比赛
随着近几年人工智能和大数据的快速发展和应用,使得相应的工智能&大数据相关比赛比赛近几年火热了起来,下面就我知道到的人工智能&大数据相关比赛,为大家简要说下,感兴趣的可以参加一些比赛,锻 ...
- Kaggle新上比赛:Google AI发起地域包容性图像识别竞赛
(欢迎关注"我爱计算机视觉"公众号,一个有价值有深度的公众号~) 昨天Kaggle新上了一个关于图像识别的比赛,Google AI发起了地域包容性图像识别竞赛(Inclusive ...
- Kaggle新上比赛:胸部X光片肺炎检测
(欢迎关注"我爱计算机视觉"公众号,一个有价值有深度的公众号~) 今天北美放射学会(RSNA®)联合Kaggle发起了医学图像肺炎检测的比赛.医学图像中的肺炎视觉信号,表现为胸部X ...
- Kaggle新上比赛:空客公司卫星图像船体分割
今天Kaggle新上了一个计算机视觉目标分割方面的比赛(Airbus Ship Detection Challenge, Find ships on satellite images as quick ...
- 【数据竞赛】Kaggle知识点:比赛类型介绍
在Kaggle平台上,经常有好多个比赛可供选择.如下图所示,为正在进行比赛的截图.那么对于入门同学(从没参加过一次Kaggle比赛)如何选择一场适合的比赛呢? 本文将对Kaggle平台上的比赛按照类型 ...
- 国内常见与人工智能(深度学习、机器学习)相关比赛合集
国内常见与人工智能(深度学习.机器学习)相关比赛合集 以下比赛一般最近一年一次,一届一届的办,不过在我们学校都不算ABC类,但在要继续走一下还是挺有用的,当然钱也比普通比赛奖励的多 一.[第五届中 ...
- 金融风控相关的知识点
金融风控相关的知识点 对于金融风控预测类常见的评估指标如下 KS(Kolmogorov-Smirnov) KS统计量由两位苏联数学家A.N. Kolmogorov和N.V. Smirnov提出.在风控 ...
- 计算机视觉相关比赛,竞赛 | Kaggle上有哪些有趣又多金的计算机视觉类比赛?
原标题:竞赛 | Kaggle上有哪些有趣又多金的计算机视觉类比赛? 本文阅读时间约5分钟 如今计算机视觉已经成为人工智能领域的热门研究对象,很多小伙伴都想通过一些有效的途径来学习和运用所学知识,有什 ...
- Kaggle时间序列预测相关比赛以及代码
1.预测商品销量比赛 代码1:使用LSTM https://www.kaggle.com/code/sanjaylalwani/lstm-predict-sales 代码2:传统方法AR, MA an ...
最新文章
- linux文件目录操作实验报告,Linux操作系统实验4文件和目录操作
- Java 7中的Try-with-resources
- C# XML的序列化与反序列化
- 计算机鼠标介绍教学反思,《玩转鼠标》教学反思
- 五大新品+两大黑科技,看华为云如何升级基础设施让用户“躺平”
- Mike Krueger 加入Mono团队
- 漫过花园洋房里的浓烟
- 用户故事Invest原则、敏捷与完整的需求
- windows update 离线包下载
- 985高校硕导跳槽高中当老师,博士扎堆中小学,是内卷还是进步?
- 怎么用手机修改图片大小?在线修改图片的方法?
- CODESYS Automation Server
- openflow pox操作命令
- App中WebView网页加载优化实战干货
- 供应链管理环境下,企业采购管理面临哪些要求?
- 计算机应用新媒体是什么,新媒体概念,什么是新媒体
- # 技术栈知识点巩固——Js
- 准确曝光一学就会 数码相机曝光的秘诀
- 英辞流——坚若金刚与穿行无碍:物质的三态
- npm ERR! code EINTEGRITY
热门文章
- 鸿蒙系统无缘华为手机,华为手机无缘鸿蒙系统!任正非隐藏锋芒,谷歌“逃过一劫”...
- echarts data 赋值
- 按要求编写一个Java应用程序程序: (1)定义一个接口CanFly,描述会飞的方法public void fly(); (2)分别定义类飞机和鸟,实现CanFly接
- c语言中int作用,c语言中int的用法(5页)-原创力文档
- 浅谈Prim,Kruskal最小生成树算法
- 3、HashMap、HashTable和ConcurrentHashMap的区别?
- 如何快速绘制XRD标准图
- Word中批量制作录取通知书amp;工资条
- 多项式(Polynomial)的运算——利用单链表
- IDL实现火灾监测与火点提取