今天老肥和大家分享的是山东省第二届数据应用创新创业大赛-日照分赛场-公积金贷款逾期预测的baseline, 这个赛题是结构化数据的分类问题,相对来说入门门槛较低,那就一起来看看吧!

赛事介绍

山东省第二届数据应用创新创业大赛以“数聚赋能,智惠山东”为主题,鼓励企业、社会组织和个人积极探索开展大数据创新应用,加快推进公共数据资源开发利用,在数据供给方和数据需求方之间形成常态化对接机制,推动数字经济、数字社会融合发展,促进发挥数据“优政、惠民、兴业”作用,助力“数字山东”建设。公积金贷款逾期预测是本次创新创业大赛算法赛的其中一题。

比赛数据

本题的目标是从真实场景和实际应用出发,利用个人的基本身份信息、个人的住房公积金缴存和贷款等数据信息,来建立准确的风险控制模型,来预测用户是否会逾期还款。

赛题一共提供了40000带标签训练集样本,15000不带标签的测试集样本,需要注意的是本赛题测试样本包含干扰样本(干扰样本不参与得分计算),未可得知这些样本究竟是真样本但不参与评测还是本身就是代码生成的假样本,这可能会在很大程度上影响样本的分布。数据仅有一张表,一共有19个基本特征,且均不包含任何缺失值。

评价标准

本赛题成绩排名根据测试集的在公积金逾期风险监控中,需要尽可能做到尽可能少的误伤和尽可能准确地探测,使用了“在FPR较低时的TPR加权平均值”作为平均指标,这个指标的波动性非常大,而且几乎不能直接优化,于是我采取AUC指标来优化我的模型。

Baseline方案

我的思路也非常简单,主要就是两块内容,分别是对类别特征和数值特征的处理。我们首先将所有类别特征字段做目标编码,并统计所有类别特征的频数,将频数极小的类别特征归为一类;数值特征提取出偏离特征,即单个个体与分组之间的距离。

def kfold_mean(df_train, df_test, target, target_mean_list):folds = StratifiedKFold(n_splits=5)mean_of_target = df_train[target].mean()for fold_, (trn_idx, val_idx) in tqdm(enumerate(folds.split(df_train, y=df_train['label']))):tr_x = df_train.iloc[trn_idx, :]vl_x = df_train.iloc[val_idx, :]for col in target_mean_list:df_train.loc[vl_x.index, f'{col}_target_enc'] = vl_x[col].map(tr_x.groupby(col)[target].mean())for col in target_mean_list:df_train[f'{col}_target_enc'].fillna(mean_of_target, inplace=True)df_test[f'{col}_target_enc'] = df_test[col].map(df_train.groupby(col)[f'{col}_target_enc'].mean())df_test[f'{col}_target_enc'].fillna(mean_of_target, inplace=True)return pd.concat([df_train, df_test], ignore_index=True)

模型采用了lightgbm,采用auc指标和默认参数以五折交叉验证的形式训练,不知是否是评价指标的关系,本方案的线上线下成绩gap较大。

最终该baseline方案可以获得0.5左右的线上分数。显然,改进的方案有很多,使用公积金贷款的相关知识来做特征工程就是一个不错的方向。

完整的代码我已经上传,在后台回复「公积金」即可。

——END——

扫码二维码

获取更多精彩

老肥码码码

公积金贷款逾期预测Baseline分享相关推荐

  1. 【直播】王茂霖:二手车交易价格预测 Baseline 提高(河北高校数据挖掘邀请赛)

    二手车交易价格预测 Baseline 提高 目前 河北高校数据挖掘邀请赛 正在如火如荼的进行中.为了大家更好的参赛,王茂霖分享了 从0梳理1场数据挖掘赛事!,完整梳理了从环境准备.数据读取.数据分析. ...

  2. 海华·垃圾分类AI挑战赛baseline分享,评测得分最高至0.85

    点击蓝字关注biendata 导语 本篇baseline采用torchvision内置的目标检测模型,LB可以达到76左右.如果为了进一步提高成绩,可以把主办方提供的简单样本也加入训练,以及增加更多的 ...

  3. 阿里天池金融数据分析赛题2:保险反欺诈预测baseline

    金融数据分析赛题2:保险反欺诈预测baseline 好久没写baseline了,最近逛比赛的时候突然看到阿里新人赛又出新题目了,索性写个baseline给初学者,昨天晚上把比赛数据下载了,然后随便跑了 ...

  4. 【算法竞赛学习】二手车交易价格预测-Baseline

    二手车交易价格预测-Baseline Baseline-v1.0 版 Tip:这是一个最初始baseline版本,抛砖引玉,为大家提供一个基本Baseline和一个竞赛流程的基本介绍,欢迎大家多多交流 ...

  5. 信贷逾期预测,LightGBX模型

    信贷逾期预测 背景 数据处理 小提琴图查看数据分布 模型建立 模型评估  本文介绍了利用LightGBX模型进行贷款逾期预测的方法. 背景  互联网金融的核心在于风控,风控决定了互联网金融企业的竞争力 ...

  6. 数猪第一名!推荐给你的朋友们!猪只盘点挑战赛Baseline分享

    每年这么多场比赛,层出不穷的新赛题搞得大家有些麻木. 今天老DC给大家推荐一个新赛题,也许不适合你,但一定适合一起打比赛的好兄弟. 不过,猪猪不是按"头"来计算的吗? 所以是不是可 ...

  7. 徐韬:CCF - 个贷违约预测Baseline

    徐韬是华北电力大学数理系大四的学生,Datawhale成员/Dreamtech成员,参加了多期Datawhale的组队学习,也在天池/CCF/讯飞等比赛中取得了不错的成绩,现保送大连理工大学软件学院深 ...

  8. 阿里天池心跳信号分类预测baseline

    阿里天池又来了一个数据挖掘新人赛,是关于心跳信号分类的预测问题,主要针对初学者学习数据挖掘知识 比赛地址链接 这次数据比较有意思,和最常见的多属性结构化数据不同,本次数据是心电图数据记录,所以用一下传 ...

  9. 预测分析·民宿价格预测baseline

    大家好,我是小泽 预测分析·民宿价格预测比赛是和鲸社区与ChallengeHub联合举办的一场新手赛,本文旨在多角度构建特征工程来帮助选手快速比赛上手. 比赛链接 话不多说,直接开! 导入相关库 im ...

  10. CFM对金融市场的波动性预测——Baseline(错漏百出版)

    概述: 为了对股票市场价格的波动进行预测,根据所提供的原始数据,本文做了以下工作: 首先在数据预处理部分,在对数据进行描述性统计后,针对模型的缺失值采取了0值填补的方法:同时针对数据严重右偏的统计分布 ...

最新文章

  1. 三维空间平面拟合MATLAB
  2. 用户界面框架jQuery EasyUI示例大全之DataGrid(1/4)
  3. keypair java_如何在Java中序列化和反序列化RSA KeyPair
  4. new与malloc的区别,以及内存分配浅析
  5. golang sync WaitGroup
  6. linux一行多个命令行,如何在一行中运行多个Linux命令
  7. sscanf的高级用法
  8. 程序员面试金典 - 面试题 17.14. 最小K个数(快排划分O(n))
  9. Kendo UI常用示例汇总(十)
  10. 1004 C语言设置测试数据个数和测试结束标志
  11. matlab画三维图像(plot3,mesh,surf)
  12. Tapping and Tripping with NFC 基于NFC手机的公共交通票据系统
  13. MGV2000_CW、JL、JZ、KA/KX、CNTV,零配置_S905L-B_全套固件(可救砖)
  14. python 绘图及可视化
  15. firewall和企业级的Open ViP服务
  16. FileDownload文件的下载
  17. Altium Designer软件导出原理图和PCB图的PDF形式
  18. macOS更新系统到12.6后git无法使用
  19. python 文件命令_python中写入文件数据及文件定位操作命令
  20. 综述:当医学影像遇上深度学习

热门文章

  1. springboot点餐微信小程序毕业设计源码221144
  2. vue3 effect
  3. 病毒+蠕虫+bot+rootkit
  4. 电脑配置学习(台式机)
  5. 用adb shell让APP获得Root权限 by SuperSU
  6. win7系统安装sql2000数据库时没有反应,不出来安装界面?
  7. hdu4415 Assassin’s Creed (贪心)
  8. 影片相继撤档“520”,在线票务平台等待下一个“黄金档”
  9. CD4040二进制计数器实验电路的效果图演示_基础硬件电路图讲解
  10. import oracle utility_Oracle DBMS_UTILITY 用法例子