DCIC-2019-Credit-intelligence-score-2th-Place

2019数字中国创新大赛 消费者人群画像 亚军

赛题链接:https://www.datafountain.cn/competitions/337

首先非常感谢队友neil和gotcha几个月的合作,最终拿了几个周冠军和线上第一的成绩,最终答辩第二,再接再厉

感想

NLP队伍不完整代码(只包含我这部分,后面会链接到队友gotcha的代码)。

关于此次赛题,数据上来说可挖掘潜力并不是那么大,因此各个队伍能挖掘到的特征基本都很相似

于是只能拼数据,拼模型,拼骚操作了

赛题理解与特征工程

本次赛题有些数据已经被主办方处理过,有些缺失值被用0来填充,导致一些特定的数据难以分辨是空值还是0值, 还有一些数据被主办方取整和分箱了,因此适当处理源数据会有一定提升

对于特征工程本团队主要构建了以下特征:

前五个月消费总费用 = 6 * 近六个月消费总费用 - 当月费用

当月费用 - 前六个月平均费用

当月费用 - 前五个月消费总费用/5

入网月份 = 网龄 mod 12

布尔型特征相加

年龄、网龄分箱

是否998折

count_最近一次缴费金额

count_当月总费用

count_前六个月平均费用

count_费用差

count_(当月总费用,前六个月平均费用)

模型

对于模型本团队采用的模型有lightGBM,xgboost,catboost,GBDT,RandomForest

其他的很多模型也都有尝试

至于损失函数则有mse,mae,huber和自定义介于mse与mae之间的损失函数

模型融合采用了huber_regressor作为学习器,可以很大的克服异常值带来的影响,鲁棒性很强,其他团队基本都采用线性加权和分段融合,其实这些融合都要根据不同数据来进行权重参数调整鲁棒性没有那么强

之前也尝试过很多种融合方法,加权和分段融合也都采用过,stacking第二层的模型也进行过很多种尝试大部分都是收效甚微

但是这也并不代表都没有价值,只要多去尝试总能发现好东西,尝试真的很重要

注意事项

关于第三方包的版本:

panda==0.23.4

numpy==1.15.0

catboos==0.11.2

lightgb==2.2.2

scipy==1.0.0

sklearn==0.19.1

xgboost==0.71

plotly==3.4.2

还有一个有意思的点是训练的时候线程数有时会有很大的影响,本次模型默认的都是八线程

消费者人群画像 python_2019数字中国创新大赛 消费者人群画像 信用智能评分相关推荐

  1. 2020数字中国创新大赛-智能算法赛-冠军方案

    写在前面的话 大家好,我是 Champion Chasing Boy 的 DOTA,在队友 鱼遇雨欲语与余. 尘沙杰少.林有夕.嗯哼哼唧 的Carry下,最终在本届智能算法赛拿到了复赛总榜单Top1的 ...

  2. 2020数字中国创新大赛-智能算法赛-冠军方案分享

    写在前面的话 大家好,我是 Champion Chasing Boy 的 DOTA,在队友 鱼遇雨欲语与余. 尘沙杰少.林有夕.嗯哼哼唧 的Carry下,最终在本届智能算法赛拿到了复赛总榜单Top1的 ...

  3. 2020数字中国创新大赛 • 算法赛道冠军技术方案分享

    写在前面的话 作者说:我是来自京东数科的朱翔宇,也是此次大赛 Champion Chasing Boy 团队的 DOTA(常用ID),在与队友 鱼遇雨欲语与余(京东零售). 尘沙杰少.林有夕.嗯哼哼唧 ...

  4. 天池算法赛:数据挖掘经典赛事!DCIC 2020 数字中国创新大赛启动!

    2020数字中国创新大赛(Digital China Innovation Contest, DCIC2020),以"培育数字经济新动能,助推数字中国新发展"为主题,采取多赛道并行 ...

  5. 新年第一战| 数字中国创新大赛·大数据赛道等你来战

    赛事邀请函 Hey! DF的老朋友们!好久不见~ 继2020年百万奖金的NAIC"鹏城赛".万人参与的CCF BDCI赛后,DataFountain平台已发布2021年第一场赛事 ...

  6. 【算法竞赛学习】数字中国创新大赛智慧海洋建设-Task2数据分析

    智慧海洋建设-Task2 数据分析 此部分为智慧海洋建设竞赛的数据分析模块,通过数据分析,可以熟悉数据,为后面的特征工程做准备,欢迎大家后续多多交流. 赛题:智慧海洋建设 数据分析的目的: EDA的主 ...

  7. 4373支队伍报名2020数字中国创新大赛-数字政府赛道 数字战“疫”彰显社会责任...

    2月25日,2020数字中国创新大赛-数字政府赛道进入复赛阶段.根据本赛道承办方--阿里云天池竞赛平台的数据显示,自1月1日赛事报名通道上线至今,共吸引了全球16个国家和地区共计4373支队伍参赛. ...

  8. 数字中国创新大赛决赛名单出炉,与华为云 EI 一起挑战书法识别

    数字中国创新大赛决赛名单出炉,与华为云 EI 一起挑战书法识别 日前,以"软件赋能数字经济 创新驱动数字中国"为主题的 2019数字中国创新大赛分区(北京)决赛成功举办.福州市人民 ...

  9. 【CTF WriteUp】2023数字中国创新大赛网络数据安全赛道决赛WP(1)

    2023数字中国创新大赛网络数据安全赛道决赛WP(1) 比赛感想 不多说了,还是菜,各种不会,还得学 数据安全题目 Crypto-ddddmm import os from Crypto.Util.n ...

最新文章

  1. 尹伊:我眼中的Datawhale
  2. 学计算机的笔记本电脑用多大内存,办公用笔记本电脑多大尺寸内存合适
  3. python获取当前时间的源代码_Python获取时间戳代码实例
  4. 20159302 《网络攻击与防范》第四周学习总结
  5. 如何使用man命令linux,Linux man命令的使用方法
  6. LeetCode 212. 单词搜索 II(Trie树+DFS)
  7. oracle数据库中基础知识,oracle数据库基础知识
  8. 什么?iPhone 11起售价不到5400元?
  9. java定时器只执行一次_搞定Java并发:为什么说只有1种实现线程的方法?(下)...
  10. 王炸!Waymo正式官宣无人车出行平台,瑟瑟发抖的不止Uber
  11. 敏感性分析算法 程序_计算机程序设计艺术(TAOCP)精读笔记1 - 算法分析真正应该有的样子 Part 1...
  12. CSS3D写3d画廊滚动
  13. 转发技术风雨三十年,你经历过……
  14. 智慧工厂建设方案(智慧工厂涉及业务系统)
  15. 马云留给阿里的财富:4个应用场景落地+90个区块链专利
  16. 环境风险模型总结及实现方案
  17. 高等数学—常见三角函数
  18. java投屏 dlna 安卓_DLNA投屏
  19. csma研究背景_CSMA/CD协议的特点
  20. PDF文件如何添加页面或插入其他PDF页面

热门文章

  1. LaTeX中文字体设置
  2. Hadoop之POC测试总结
  3. oracle怎么从右边截取,Oracle 字符串截取 从后向前截取方法
  4. 雷达信号处理-雷达应用
  5. 直插电阻功率和尺寸关系
  6. 手游外挂分类及原理介绍
  7. android studio hiera,速成意大利语第课 昨天晚上我在电视机前我们不能空手去那里.doc...
  8. FOJ 1968 Twinkling lights III
  9. 生物识别技术是什么,生物识别技术的比较介绍
  10. 【css】使用 canvas 画一个圆、贝塞尔曲线画对话气泡