2020fintech训练营数据赛道

1、 赛题背景:

  在当今大数据时代,信用评分不仅仅用在办理信用卡、贷款等金融场景,类似的评分产品已经触及到我们生活的方方面面,比如借充电宝免押金、打车先用后付等,甚至在招聘、婚恋场景都有一席之地。招行作为金融科技的先行者,APP月活用户数上亿,APP服务不仅涵盖资金交易、理财、信贷等金融场景,也延伸到饭票、影票、出行、资讯等非金融场景,可以构建用户的信用评分,基于信用评分为用户提供更优质便捷的服务。

2、研究要求

  本次大赛为参赛选手提供了两个数据集(训练数据集和评分数据集),包含用户标签数据、过去60天的交易行为数据、过去30天的APP行为数据。希望参赛选手基于训练数据集,通过有效的特征提取,构建信用违约预测模型,并将模型应用在评分数据集上,输出评分数据集中每个用户的违约概率。

3、评价指标

  机器学习中AUC

4、数据说明

  1.训练数据集tag.csv,评分数据集_tag.csv提供了训练数据集和评分数据集的用户标签数据;
  2.训练数据集_trd.csv,评分数据集_trd.csv提供了训练数据集和评分数据集的用户60天交易行为数据;
  3.训练数据集_beh.csv,评分数据集 beh.csv提供了训练数据集和评分数据集的用户30天APP行为数据;
  4.数据说明.xlsx为数据集字段说明和数据示例;
  5.提交样例;
  5.1采⽤UTF-8⽆BOM编码的txt⽂件提交,⼀共提交⼀份txt⽂件。
  5.2输出评分数据集中每个用户违约的预测概率,输出字段为:用户标识和违约预测概率,用\t分割,每个用户的预测结果为一行,注意不能有遗漏的数据或多出的数据。

5、思路介绍

1、提取特征
  特征工程是通过对原始数据的处理和加工,将原始数据属性通过处理转换为数据特征的过程,属性是数据本身具有的维度,特征是数据中所呈现出来的某一种重要的特性,通常是通过属性的计算,组合或转换得到的。特征是机器学习的基础,它决定算法的上界。特征提取通常包括数据清洗、数据平衡、缺失值处理、特征编码、数据规范法、特征过滤、特征合成与衍生。
  (1)数据平衡
  通过统计分析查看正负样本的比例,在样本极度不平衡时,采用上下采样法、smote等方法。
  (2)缺失值处理
  统计缺失值出现的比例,如果数据量很大且缺失值较小,可以考虑删除这些数据。但在实际数据中,往往缺失数据占有相当的比重。这时如果手工处理非常低效,如果舍弃缺失记录,则会丢失大量信息,使不完全观测数据与完全观测数据间产生系统差异,对这样的数据进行分析,你很可能会得出错误的结论。常见的填充方法有平均值填充(对于数值型为平均数,对于非数值型为众数填充)、中位数填充等。
  (3)特征编码
  由于常见的机器学习算法(如逻辑回归)无法对非数值类型直接处理因此常进行编码操作,常用的编码方式有独热编码、labelencoder等。其中独热编码通常用来处理无序的数值型,比如对性别(男、女)进行编码。
  (4)数据规范法
  由于不同特征量纲的不同,因此需要对数据进行规范法,常见的规范法方法有min-max归一化、标准化、中心化(具体看所选取的算法要求)等,其中min-max不改变数据分布,标准化改变数据分布。
  (5)特征过滤
  特征过滤主要是对冗余特征进行处理,常见处理方法有方差法、卡方检验法、F检验法、装代法、包裹法等,其中常用的组合为方差过滤法和F检验法,卡尔检验法常用来处理线性关系,F检验法即可以用来线性关系,还可以用来处理非线性关系。
2、算法的选取
  由于本题目属于典型的二分类问题,因此常用算法有逻辑回归、决策树、Adaboost、xgboost、随机森林、lightgbm 、支持向量机、K近邻等。个人比较推荐xgboost和lightgbm。由于本人在比赛中名次不佳(a榜210左右,b榜360左右,无缘前200),因此下面推荐大神做法链接。

大神1号: https://blog.nowcoder.net/n/f5d0873b86a447aebd318989ca9d4412
大神2号: https://github.com/wolfkin-hth/FinTech2020
大神3号: https://blog.csdn.net/qq_39748940/article/details/105965444
大神4号: https://blog.csdn.net/weixin_45718907/article/details/106199036
大神5号: https://blog.csdn.net/weixin_45718907/article/details/106199036
大神6号:https://msd.misuland.com/pd/4146263777181958558?page=1
大神分享的2019年fintech代码:https://url.cn/Fn0fj3ns

6、结束语

  虽然打boss之路很难,但是进步也是显著的,愿自己和一起找工作的人早日上岸。

小白打boss之路——2020fintech训练营数据赛道相关推荐

  1. 招商银行2020FinTech精英训练营数据赛道参赛回顾

    招商银行2020FinTech精英训练营数据赛道参赛回顾 比赛简介 参赛背景 比赛过程 1.流程熟悉 2.模块导入,数据读取 3.数据初探.概览 3.1 标签数据集数据预处理 3.2 交易行为数据集数 ...

  2. 招商银行2021FinTech精英训练营数据赛道方案分享

    今天老肥和大家分享的是下午刚刚结束的招商银行2021FinTech精英训练营数据赛道的方案.这次赛题是时间序列赛题,我也是第二次尝试(第一次是中兴捧月迪杰斯特拉赛道的流量预测),方式方法还略显稚嫩,只 ...

  3. 招商银行2022FinTech精英训练营 - 数据赛道方案分享

    老肥今天和大家分享的是招商银行2022FinTech精英训练营的数据赛道. 该赛题是表格类赛题,主要是对客户流失进行预测,是一个常规的二分类问题,评价指标为AUC,其特点是A榜和B榜两个阶段是完全不同 ...

  4. 招商银行2022FinTech数据赛道总结

    招商银行2022FinTech数据赛道总结 比赛链接:FinTech精英训练营官方网站. 第一次参加这种比赛,真的学到了不少东西,感谢其他大佬在交流群里的无私分享,小白又了解到了很多可以学习的东西.这 ...

  5. 2020年招商银行FinTech数据赛道比赛总结

    为期2周的比赛,最后b榜线上AUC0.7765,排名130,不知道第一名是多少,但看群聊,10名左右的人成绩是0.7842,差一个百分点,就与大奖差之千里啊,我还是太菜了=-=. 不过,还是很开心的, ...

  6. Java基础到Java进阶——Java小白的历练之路------从0到1,开卷!

    Java小白的历练之路------从0到1 title: Java Essay date: 2022-09-07 08:58:32 tags: Java notes 写在前面: 免责声明:本笔记来源自 ...

  7. 运维小白的python之路(一)

    运维小白的python之路(一) 本人运维小白一枚,目前在负责某银行的测试服务器的基础运维.浑浑噩噩的过了一年,工作上也涉及不到什么技术.身边的朋友们都在各自的领域内奋斗发展,感觉自己不能这样下去了, ...

  8. Python小白的进阶之路---Day5

    Python小白的进阶之路---Day5 1.file 1.1打开文件方式(读写两种方式) 1.2文件对象的操作方法 1.3学习对excel及csv文件进行操作 2.os模块 3.datatime模块 ...

  9. 《小白H5成长之路19》if判断语句的一些用法

    "小白,你面临过选择么?" "面临过啊,今天上午就在犹豫是骑自行车还是坐公交,出门一看天太冷,所以就做公交来上班了." "如果不冷你就骑自行车来了,对 ...

最新文章

  1. HBuilder离线打包启用Chrome Inspect调试
  2. 连接阿里云和容器技术生态 - 阿里云开源容器项目汇总
  3. matlab画曲面二次,如何用matlab绘制二次B样条三维曲面(已知控制点和节点矢量)?...
  4. 基本数据类型与字符串的转换
  5. 分区表分区字段的update操作
  6. 工程师软技能5:生产力
  7. javascript--函数(一)
  8. python在工程造价的作用_工程预算的意义何在
  9. c语言除法保留1位小数,高精度除法小数点位数
  10. 美国军方称密切关注量子加密,法国国防部重金投资量子技术
  11. 不靠加速器 路由配置也可扭转网游战局
  12. 使用python,生成符合zipf分布的数据集
  13. 乐于分享是一种境界的突破
  14. Microsoft Sync Framework Runtime 简介(一篇非常好的MSF介绍文章)
  15. c语言fabs函数的返回值,关于c语言中fabs函数的用法
  16. word删除分页符的两种方法
  17. 区块链软件开发艺术品交易平台开发NFT交易平台开发铸造源代码案例分享
  18. 普罗米修斯Prometheus+Grafana,监控搭建与界面基础配置
  19. 【docker】gitlab + qqmail配置SMTP
  20. AFNetworking源码简单分析

热门文章

  1. collections.deque的队列方法,[]内的语句规范,del,字典(dict)
  2. java基础之包_繁星漫天_新浪博客
  3. opencv-OpenCV中的图像处理 [1]
  4. 小米怎么快速回到顶部_[玩机教程:App推荐篇 01] | 小米视频 极速版(MiVideo-Lite)...
  5. 企业邮箱地址怎么写你知道吗?这样的邮箱地址更专业
  6. 中地恒达GNSS表面位移监测系统(Guard-GNSS)
  7. [转载]性能测试中TPS和并发用户数估算
  8. SylixOS 共用中断号机制
  9. 使用Java实现矩形 平行四边形 等腰三角形 菱形 倒三角
  10. 农业节水自动灌溉 ic射频卡机井灌溉控制器智能取水