【数据竞赛】消费金融场景下的用户购买预测冠军方案分享
大赛介绍
2000多年前,阿基米德说:“给我一个支点,我可以撬动整个地球”。伴随近年来新技术的快速涌现和迅猛发展,大数据或将成为传统金融行业向金融科技转型的“阿基米德支点”。
作为业内领先品牌,招商银行信用卡中心在全力打造Fintech银行的过程中,始终走在变化的前沿。我们在全景智额、千人千面、大数据风控等金融科技方面的尝试与创新,也正是因为打造了从数据收集到数据清洗、再到数据挖掘和商业应用的一体化大数据平台。
我们希望,在数据已经成为战略资源和经济资产的今天,通过此次数据大赛,捕捉在消费金融场景下的用户价值信息与消费需求,发挥数据价值,给用户提供更加精准的服务。也可以让广大高校学生对消费金融、对信用卡数据应用,能有更深刻的接触与了解。
赛题背景
掌上生活APP是招商银行于2010年推出的手机客户端应用软件,全面升级了信用卡的使用体验。当前6.0版本的掌上生活APP,提供了手机商城、饭票影票、在线客服、基金理财、办卡开卡、额度管理、消费信贷、账单管理等全方位功能,同时实现了LBS查询服务和手机远程支付,全面满足并提升了持卡人对金融和日常生活需求的消费体验。
招商银行信用卡在不断拓展业务与场景的同时,也希望通过数据积累与数据驱动,主动捕捉用户价值信息与消费需求,发挥数据价值,给用户提供更加精准的服务。
赛题任务
利用招商银行客户的个人属性、信用卡消费数据,以及部分客户在掌上生活APP上的一个月的操作行为日志,设计合理的特征工程与模型算法方案,预测客户在未来一周内(4月1日-7日),是否会购买掌上生活APP上的优惠券(包括饭票、影票等)。考虑到客户隐私,客户的个人属性数据与信用卡消费数据,采用脱敏并标准化处理为V1,V2,…,V30数值型属性。客户在APP上的行为日志,一些字段也进行了相应加密。
赛题数据
本次比赛提供的数据集包括训练数据与测试数据,训练数据共分为三部分:
(1)个人属性与信用卡消费数据:包含80000名信用卡客户的个人属性与信用卡消费数据,其中包含枚举型特征和数值型特征,均已转为数值并进行了脱敏和标准化处理。
(2)APP操作行为日志:上述信用卡客户中,部分已绑定掌上生活APP的客户,在近一个月时间窗口内的所有点击行为日志。
(3)标注数据:包括客户号及标签。其中,标签数据为用户是否会在未来一周,购买掌上生活APP上的优惠券。
文件清单和使用说明
train/ ——训练样本目录,包含三个文件
train_agg.csv —— 个人属性与信用卡消费数据
train_log.csv ——APP操作行为日志
train_flag.csv ——标注数据
test/ ——评测样本目录,包含两个文件,不提供标注数
test_agg.csv —— 个人属性与信用卡消费数据
test_log.csv—— APP操作行为日志
冠军方案
赛题分析
特征工程(常规特征)
主要按照特征群进行提取:基础统计特征,离散特征,时序相关特征。
特征工程(亮点一:时序特征)
特征工程(亮点二:NLP特征)
特征工程
特征选择:
基于XGB的特征重要性
先训练一个XGBoost模型,输出其特征重要性,然后将重要性为0的特征删除,即完成了特征选择。
基于wrapper的方式
基于贪心算法,寻找最优特征子集,如上图所示。
目的:
降维,使模型泛化能力更强,减少过拟合。
模型设计
模型融合(基于Rank)
比赛评价标准为AUC,其本质为排序优化问题概率得分线性加权是存在问题的,所以需要进行调整。
应用场景
潜力:
特征具有可解释性
模型的验证方法具有稳定性
随着数据量的增大,Word2vec特征会有更好的效果。
自然语言处理领域中成熟的方法可应用到用户行为识别中。
价值:
商家广告精准投放。
个性化推荐优惠信息。
参赛总结
不足:
对于agg表只进行了简单的二元化和rank处理,没有深度发掘。
模型的融合的权重是根据线上成绩,其实可以采用线性回归的方式得到。
收获:
NLP和普通机器学习的结合
坚持的重要性
团队协作能力都得到了较大的提升
冠军代码:https://github.com/sunwantong/China-Merchants-Bank-credit-card-Cente-User-purchase-forecast
往期精彩回顾适合初学者入门人工智能的路线及资料下载机器学习及深度学习笔记等资料打印机器学习在线手册深度学习笔记专辑《统计学习方法》的代码复现专辑
AI基础下载机器学习的数学基础专辑
获取本站知识星球优惠券,复制链接直接打开:
https://t.zsxq.com/qFiUFMV
本站qq群704220115。加入微信群请扫码:
【数据竞赛】消费金融场景下的用户购买预测冠军方案分享相关推荐
- 谁是消费金融场景之王?
无场景,不金融. 消费金融是最依赖场景的金融产品.疫情刚刚好转,金融机构消费金融部门的各路人马就开始四处视频会议.云签约和拜访活动,布局带消费场景.刚需.数字化程度高.客群质量高的头部场景已经成为他们 ...
- 穷游网宣布与在线旅游消费金融场景运营方首付游达成战略合作
12月21日,穷游网宣布与在线旅游消费金融场景运营方首付游达成战略合作.作为首家全面与首付游开展合作的OTA,穷游将在折扣(商城)平台上挑选出一系列优质出境游自由行产品,接入首付游的分期支付消费场景. ...
- 揭秘 RocketMQ 新特性以及在金融场景下的实践
2019 年末, RocketMQ 正式发布了 4.6.0 版本,增加了" Request-Reply "的同步调用的新特性." Request-Reply " ...
- rocketmq新扩容的broker没有tps_揭秘 RocketMQ 新特性以及在金融场景下的实践
2019 年末, RocketMQ 正式发布了 4.6.0 版本,增加了" Request-Reply "的同步调用的新特性." Request-Reply " ...
- 数据为王的时代 大数据对消费金融的影响
伴随互联网在各行各业的应用,消费金融也越来越多进入人们的视野当中.在消费金融领域,2015年P2P"崩盘".2016年频繁曝光的"裸条"事件等新闻将其推向舆论的 ...
- 神策数据成林松:数据智能在业务场景下的应用(附 PPT 下载)
在神策 2020 数据驱动用户大会「上海站」现场,神策数据业务咨询师成林松分享了<数据智能在业务场景下的应用>的演讲.(文末附 PPT 下载地址) 本文根据其演讲内容整理,数据均为虚拟. ...
- 分布式锁和mysql事物扣库存_这个是真的厉害,高并发场景下的订单和库存处理方案,讲的很详细了!...
前言 之前一直有小伙伴私信我问我高并发场景下的订单和库存处理方案,我最近也是因为加班的原因比较忙,就一直没来得及回复.今天好不容易闲了下来想了想不如写篇文章把这些都列出来的,让大家都能学习到,说一千道 ...
- java分布式库存系统_这个是真的厉害,高并发场景下的订单和库存处理方案,讲的很详细了!...
前言 之前一直有小伙伴私信我问我高并发场景下的订单和库存处理方案,我最近也是因为加班的原因比较忙,就一直没来得及回复.今天好不容易闲了下来想了想不如写篇文章把这些都列出来的,让大家都能学习到,说一千道 ...
- 千亿级金融场景下,基于Pulsar的云原生消息队列有怎样的表现?
导语 | 云原生场景,多语言.多种协议兼容,任意多的消息 Topic.任意多的消费者,性能的按需快速扩展成为消息队列基本的要求.本文是对腾讯TEG技术委员会专家工程师刘德志老师在云+社区沙龙 onli ...
最新文章
- 绝对实用 NAT + VLAN +ACL管理企业网络
- 窥探try ... catch与__try ... __except的区别
- synchronized修饰方法和代码块的区别
- cacti添加I/O监控
- socket网络编程python_python之路8:Socket网络编程
- C语言控制台窗口界面编程:用printf在终端打印一个GUI窗口
- Fiddler过滤css、js、图片等静态文件
- 联想软件商店安装教程
- 萤火虫小程序_十一爱萌乐园试营业欢乐开启!萤火虫星光夜梦幻来袭!更有…...
- Java-JNI调用过程
- 二进制转十六进制的详细步骤
- 总结:Linux目录之/dev
- python实现词语填空_Python实践练习:疯狂填词
- IPQ807X/IPQ50XX/IPQ60XX art关闭mac地址随机化设置
- 为什么我的echarts字体样式这么丑?Echarts 柱状图、饼图 等标签、字体、样式调整
- App-UI自动化测试(Airtest+Pycharm)
- Ubuntu Kylin如何关闭自动锁屏
- 20年的分享页面signature
- 桌面HTML更换图标,怎样更改桌面图标?更改桌面图标方法【图文详解】
- ts泛型和补充类型基础