浏览更多内容,可访问:http://www.growai.cn

1.介绍

​ 队员:@回头是岸,@林萧, @观想,作者:@一休

2. 赛题背景

资金流动性管理迄今仍是金融领域的经典问题。在互联网金融信贷业务中,单个资产标的金额小且复杂多样,对于拥有大量出借资金的金融机构或散户而言,资金管理压力巨大,精准地预测出借资金的流动情况变得尤为重要。本次比赛以互联网金融信贷业务为背景,以《现金流预测》为题,希望选手能够利用我们提供的数据,精准地预测资产组合在未来一段时间内每日的回款金额。

本赛题涵盖了信贷违约预测、现金流预测等金融领域常见问题,同时又是复杂的时序问题和多目标预测问题。希望参赛者利用聪明才智把互联网金融的数据优势转化为行业解决方案。

数据包含训练样本、测试样本、每个标的的属性表、借款用户基础信息表、用户画像标签列表、借款用户操作行为日志表和用户还款日志表五个部分。

赛题的详解和数据见:官网。
如失效关注公众号:AI成长社,回复:魔镜杯 即可获得

3.赛题理解

基于对赛题的分析以及金融风控业务的理解,得到以下几点:

  • 赛题重要性:准确预测未来一段时期资产组合回款量。这能够帮助互联网金融企业更好的把控运营节奏,进行良性资金配置流动性管理,最大化的利用现有资金。
  • 赛题目标:预测资产组合在未来一段时间内每日的回款金额(但是我们无法预知资产组合的构成)

基于以上分析,决定在未知资产组合的情况下将原有的问题从宏观和微观两个方面进行挖掘,从微观角度挖掘用户的一些借贷习惯;从宏观挖掘公司每月每日资金的流入流出情况,来拟合最终的资产组合的回款情况,具体的结构如下图。

4. 特征工程

由于金融风控领域对模型特征要求有很强的可解释性,在挖掘基本的特征时,我们都会考虑挖掘的特征最终的作用点。我们最终的特征有三部分来源,分别是基本信息特征、用户浏览行为特征和用户还款行为特征。

1.基本特征

基于时间过滤筛选出未穿越的基本时间特征,具体特征如下图:

  • 针对用户属性特征,删除了cell_province,id_province,id_city三个看似很强的地域特征。这部分数据存在缺失值,曾今尝试过用id_province的对cell_province进行填充,id_city进行分省份填充,但是最终线上结果没有有直接删除有效,删除操作线上提升大概200多分

    ##尝试的填充代码
    data['cell_province'] = data['cell_province'].fillna(data['id_province'])
    data['id_city'] = data['id_city'].fillna(data['id_province']   '000')
    
  • 对age进行分桶处理

  • 在标的属性特征中添加月利率特征:原始数据提供的是年利率,考虑到标的期限有3,6,9,12月,因此改成月利率特征,线上提升100左右

  • 标的还款日期特征:应还款日期是在几月份,几号,星期几,线上提升200左右

  • 用户画像特征: 对用户画像做TFIDF处理,保留10维特征

    Tfidf_vect = TfidfVectorizer(max_features=10, ngram_range=(1, 1), min_df=1)
    Tfidf_vect.fit(list(train['taglist']))
    

2.用户浏览行为特征

  • 时间段切分:将一天分为8个时间段,统计每个时间段用户的操作天数及占比,凌晨和深夜操作的逾期概率更高
  • 行为间隔频度:将用户行为序列的最大间隔天数和最小间隔天数取出,推测借款人粘性

3.用户还款行为特征

  • 历史还款习惯(还款月粒度-33天):有的用户喜欢还款日还款,有的喜欢提前一天还款,有的没有固定时间,基于此采用统计特征表示(众数、平均数、最大值、最小值、方差)
  • 历史还款习惯(自然月粒度-上旬中旬下旬):有的用户喜欢在月初还款,有的喜欢月末还款(可能与其工资日相关),采用还款日期的众数表示
  • 历史借款情况:用户拥有标的数量,用户相邻标的间隔天数,用户从注册日到借款等待的天数

5 模型的设计

1.label设计
公 式 : l a b e l = d u e _ d a t e − r e p a y _ d a t e 公式:label = due\_date - repay\_date 公式:label=due_date−repay_date
由于受到大小月份的影响,进行适当的修正,其中31表示借款当天还款,即 a u d i t i n g _ d a t e = = r e p a y _ d a t e auditing\_date == repay\_date auditing_date==repay_date, 32表示逾期,其余不存在的日期用0填充。最终的结果分布如下图。修正后的label定义方式相比直接采用距离天数的定义方式,线上提升100多分。

2.训练集的调整

统计数据发现2018年数据2月和3月的还款情况和其他月份有很大不同,逾期率更大,分析可能是由于春节的原因,故将2018年的2月和3月作为线下验证集,然后将其余的数据作为线下训练集。这种方式验证集比直接随机选取数据做验证集效果更好,线上提升在150分左右。如果分拆成两个模型,分别是2月作为验证集和3月作为验证集,线上还能再提升50分左右,最终为了模型更简单,没有使用这种方案。

3.模型结构

我们的模型分为两个部分,微观部分对应用户的一些特征,主要挖掘方向就是用户的还款风险以及还款时间偏好,特征见上面的特征部分,模型使用的事lightgbm模型。宏观部分主要是分析公司每月,每日的资金运转流通情况,统计分析自然天资金回流的概率,在微观预测的基础上调整回流日资金分配。最终线上得分5424分。

优点:

  • 有一定可解释性,知道特征来源
  • 可操作性比较强
  • 模型稳定,切榜成绩几乎没有波动

4.loss 优化

  • 预期类别权重调整:考虑到风控模型应该是越来越好,即往后逾期率会变低,如下图所示,基于此,训练模型时将逾期的类别适当降低,线上提升50;

  • 日期权重调整:统计分析月初的还款量较大,月底的还款量较小,将每月月初的loss权重增到到1.12,月末的loss权重的loss减小到0.79。复赛线上单模型5623。

    针对该部分的代码:

    # 设置时间权重权重
    train_data['sample_weight'] = 1.0
    train_data.loc[(train_data['repay_date'] == '2018-01-01') |(train_data['repay_date'] == '2018-02-01') |(train_data['repay_date'] == '2018-03-01') |(train_data['repay_date'] == '2018-04-01') |(train_data['repay_date'] == '2018-05-01') |(train_data['repay_date'] == '2018-06-01') |(train_data['repay_date'] == '2018-07-01') |(train_data['repay_date'] == '2018-08-01') |(train_data['repay_date'] == '2018-09-01') |(train_data['repay_date'] == '2018-10-01') |(train_data['repay_date'] == '2018-11-01') |(train_data['repay_date'] == '2018-12-01') |(train_data['repay_date'] == '2019-01-01'),['sample_weight']] = 1.124115183    # 每月1号
    train_data.loc[(train_data['repay_date'] == '2018-01-31') |(train_data['repay_date'] == '2018-02-28') |(train_data['repay_date'] == '2018-03-31') |(train_data['repay_date'] == '2018-04-30') |(train_data['repay_date'] == '2018-05-31') |(train_data['repay_date'] == '2018-06-30') |(train_data['repay_date'] == '2018-07-31') |(train_data['repay_date'] == '2018-08-31') |(train_data['repay_date'] == '2018-09-30') |(train_data['repay_date'] == '2018-10-31') |(train_data['repay_date'] == '2018-11-30') |(train_data['repay_date'] == '2018-12-31') |(train_data['repay_date'] == '2019-01-31'),['sample_weight']] = 0.79326    # 每月月底
    

6.总结

  • 用组合目标趋近于实际的目标:整个赛题的目标是想预测资产组合的回款情况,但是资产组合我们无法预知,通过微观的标的回款情况加上宏 观的日回流情况来对实际目标进行趋近
  • 对整体目标进行可解释性的拆解有助于特征的设计:将目标拆解为用户的信用风险、还款习惯以及整体的日回流趋势,让特征提取思路清晰可追溯
  • 可进行多目标学习的尝试:基于我们现有模型的整体架构和思想,可进行多目标学习的尝试,这方面可以继续挖掘和扩展

7. 可深入探索模型


推荐阅读:

如果出现出现图片失效的情况请阅读:https://mp.weixin.qq.com/s/0V0CkJ7HE-O8jp8g4GCeGA

  • 基于lightgbm实现的二分类、多分类和回归任务
  • 基于xgboost实现的二分类、多分类和回归任务
  • 基于keras实现的二分类、多分类和回归任务
  • 基于pytorch实现的二分类、多分类和回归任务

作者的知乎:一休, 知乎专栏:ML与DL成长之路

微信公号:AI成长社:ML/DL/CV的成长圣地。

第四届拍拍贷魔镜杯冠军方案分享相关推荐

  1. 拍拍贷魔镜杯风控算法大赛——基于lightgbm

    本文仿照知乎一位大神的文章,基于理解的基础上,修改了部分代码~感谢前辈的分享~ 参考文献: https://zhuanlan.zhihu.com/p/56864235 原始数据来源: https:// ...

  2. 风控算法赛lgb实战-拍拍贷魔镜杯

    写在开头,关注公众号:Python风控模型与数据分析.回复 风控实战1 ,即可获取本文数据集及完整代码,以及更多理论知识与代码分享 目录 1.导包 2.数据读取 3.统计分析 3.1 样本分布 3.2 ...

  3. ICCV 2021 口罩人物身份鉴别全球挑战赛冠军方案分享

    作者丨阿里云多媒体 AI 团队 编辑丨极市平台 导读 今年阿里云多媒体 AI 团队参加了 MFR 口罩人物身份鉴别全球挑战赛,并在总共5个赛道中,一举拿下1个冠军.1个亚军和2个季军.本文为该团队的冠 ...

  4. 【数据竞赛】消费金融场景下的用户购买预测冠军方案分享

    大赛介绍 2000多年前,阿基米德说:"给我一个支点,我可以撬动整个地球".伴随近年来新技术的快速涌现和迅猛发展,大数据或将成为传统金融行业向金融科技转型的"阿基米德支点 ...

  5. 2020数字中国创新大赛-智能算法赛-冠军方案分享

    写在前面的话 大家好,我是 Champion Chasing Boy 的 DOTA,在队友 鱼遇雨欲语与余. 尘沙杰少.林有夕.嗯哼哼唧 的Carry下,最终在本届智能算法赛拿到了复赛总榜单Top1的 ...

  6. 拍拍贷“魔镜风控系统”数据比赛

    一.项目介绍 这是拍拍贷举办的一个风控算法比赛,目标是根据用户历史行为数据来预测用户在未来6个月内是否会逾期还款.评价指标为AUC. 然后给出的数据有贷款记录.借款人登录信息,借款人修改信息,主要进行 ...

  7. 【数据竞赛】2020腾讯广告算法大赛冠军方案分享及代码

    写在前面 2019年冠军选手成功卫冕!!! 代码地址:https://github.com/guoday/Tencent2020_Rank1st 从初赛冠军.复赛冠军,然后到最佳答辩,一路披荆斩棘,再 ...

  8. KDD CUP 2022 风能预测赛题冠军方案分享

    KDD CUP竞赛是由ACM 的数据挖掘及知识发现专委会(SIGKDD)主办的数据挖掘研究领域的国际赛事,从1997年开始,每年举办一次,被称为数据挖掘领域的"世界杯",是该领域水 ...

  9. 百度飞桨半监督学习目标定位竞赛冠军方案分享

    赛题介绍 赛题背景 监督学习模型的优异性能要以大量标注数据作为支撑,可现实中获得数量可观的标注数据十分耗费人力物力.于是,半监督学习逐渐成为深度学习领域的热门研究方向,只需要少量标注数据就可以完成模型 ...

最新文章

  1. NPOI读写Excel
  2. 收不到Win10正式版预订通知?一个批处理搞定
  3. QT的QGraphicsLineItem类的使用
  4. 九度OJ 1168:字符串的查找删除 (查找)
  5. PHP面试题:对于用户输入一串字符串$string,要求$string中只能包含大于0的数字和英文逗号,请用正则 表达式验证,对于不符合要求的$string返回出错信息
  6. Sublime Text 2 入门及技巧
  7. mysql1033错误存储引擎_MySQL Innodb存储引擎因为缓存配置出现的错误
  8. spring boot(5)---RestTemplate请求HTTP(1)
  9. 【codevs1282】约瑟夫问题
  10. 001 Python中的变量和字符串
  11. 全网最雕的 10 名月薪超过 5W 的程序员,和他们的公众号!
  12. java screenframe_一个关于JFrame的问题
  13. 开发流程与管理--华为硬件开发
  14. 知了课堂python_Python框架Flask系列课程(2)—全栈开发[知了课堂]
  15. 毕业论文排版(六)-三线表
  16. 如何回答「你的优势和劣势是什么」?【面试核心问题6】
  17. Docker 构建统一的前端开发环境
  18. 我用AI生成了这些明星一生的样貌变化 | 已填坑附源码
  19. 字符串函数的模拟实现
  20. Zabbix自动发现和自动注册

热门文章

  1. 那天我无意中看到了程序员的电脑桌面,瞬间感觉发现了新世界!
  2. [游戏]_红眼满级了,后面的路会更长
  3. 景点旅游项目深入开发精品夜间旅游文化艺术
  4. [PHP]PHP中memcache扩展的安装
  5. WebSocket——vue3简易聊天室
  6. java保存图片到tomcat_Java上传图片到服务器路径获取系列之--图片保存到Tomcat的webapps目录下...
  7. 1195 -- Good luck and have fun
  8. 使用selenium模拟登陆新浪微博
  9. 兰州计算机速成班都学什么,去哪里学习兰州拉面速成班
  10. 一步一步写简易版飞鸽传书(四)