概述

该项目是中国移动公司举办模型竞赛项目,奖金百万。

赛题信息

随着社会信用体系建设的深入推进,   社会信用标准建设飞速发展,相关的标准相继发布,包括信用服务标准、信用数据釆集和服务标准、信用修复标准、城市信用标准、行业信用标准等在内的多层次标准体系亟待出台,社会信用标准体系有望快速推进。社会各行业信用服务机构深度参与广告、政务、涉金融、共享单车、旅游、重大投资项目、教育、环保以及社会信用体系建设,社会信用体系建设是个系统工程,通讯运营商作为社会企业中不可缺少的部分同样需要打造企业信用评分体系,助推整个社会的信用体系升级。同时国家也鼓励推进第三方信用服务机构与政府数据交换,以增强政府公共信用信息中心的核心竞争力。

传统的信用评分主要以客户消费能力等少数的维度来衡量,难以全面、客观、及时的反映客户的信用。中国移动作为通信运营商拥有海量、广泛、高质量、高时效的数据,如何基于丰富的大数据对客户进行智能评分是中国移动和新大陆科技集团目前攻关的难题。运营商信用智能评分体系的建立不仅能完善社会信用体系,同时中国移动内部也提供了丰富的应用价值,包括全球通客户服务品质的提升、客户欠费额度的信用控制、根据信用等级享受各类业务优惠等,希望通过本次建模比赛,征集优秀的模型体系,准确评估用户信用分值。

数据清单

train_dataset.zip:训练数据,包含50000行

test_dataset.zip:测试集数据,包含50000行

官网链接:

https://www.datafountain.cn/competitions/337

模型竞赛奖励包括金钱奖励,荣誉证书和大企业工作机会提供

模型竞赛评分方式是MAE,MAE是回归模型的一个评估指标,因此我们需要建立一个回归模型来解决问题。

欢迎各位同学报名<python风控建模实战lendingClub>,学习消费者人群画像-信用智能评分模型竞赛知识。https://edu.csdn.net/course/detail/30742

课程对该项目详细讲解,包括回归原理知识,梯度下降,正则化,岭回归,Lasso回归,弹性网络,支持向量回归,xgboost回归,lightgbm回归,sequencial等多种回归模型建模和算法比较

课程有调试好的python脚本,可以直接调用

课程有完整的训练集,测试集,和oot数据,下图是部分数据预览

数据说明

本次提供数据主要包含用户几个方面信息:身份特征、消费能力、人脉关系、位置轨迹、应用行为偏好。字段说明如下:
字段列表  字段说明
用户编码  数值 唯一性
用户实名制是否通过核实  1为是0为否
用户年龄  数值
是否大学生客户  1为是0为否
是否黑名单客户  1为是0为否
是否4G不健康客户  1为是0为否
用户网龄(月)  数值
用户最近一次缴费距今时长(月)  数值
缴费用户最近一次缴费金额(元)  数值
用户近6个月平均消费话费(元)  数值
用户账单当月总费用(元)  数值
用户当月账户余额(元)  数值
缴费用户当前是否欠费缴费  1为是0为否
用户话费敏感度   用户话费敏感度一级表示敏感等级最大。根据极值计算法、叶指标权重后得出的结果,根据规则,生成敏感度用户的敏感级别:先将敏感度用户按中间分值按降序进行排序,前5%的用户对应的敏感级别为一级:接下来的15%的用户对应的敏感级别为二级;接下来的15%的用户对应的敏感级别为三级;接下来的25%的用户对应的敏感级别为四级;最后40%的用户对应的敏感度级别为五级。
当月通话交往圈人数  数值
是否经常逛商场的人  1为是0为否
近三个月月均商场出现次数  数值
当月是否逛过福州仓山万达  1为是0为否
当月是否到过福州山姆会员店  1为是0为否
当月是否看电影  1为是0为否
当月是否景点游览  1为是0为否
当月是否体育场馆消费  1为是0为否
当月网购类应用使用次数  数值
当月物流快递类应用使用次数  数值
当月金融理财类应用使用总次数  数值
当月视频播放类应用使用次数  数值
当月飞机类应用使用次数  数值
当月火车类应用使用次数  数值
当月旅游资讯类应用使用次数  数值

深度学习sequencial模型建立时,需要安装Keras包。

下面我们用部分python脚本演示变量的可视化,方便描述性统计分析

当月通话交往圈人数数据可视化

f, ax = plt.subplots(figsize=(20, 6)) sns.scatterplot(data=df_data, x='当月通话交往圈人数', y='信用分', color='k', ax=ax) plt.show()

'当月旅游资讯类应用使用次数', '当月火车类应用使用次数', '当月物流快递类应用使用次数', '当月网购类应用使用次数', '当月视频播放类应用使用次数', '当月金融理财类应用使用总次数', '当月飞机类应用使用次数', '用户年龄','用户当月账户余额(元)', '用户账单当月总费用(元)', '用户近6个月平均消费值(元)等多个变量散点图绘制。

name_list = ['当月旅游资讯类应用使用次数', '当月火车类应用使用次数', '当月物流快递类应用使用次数', '当月网购类应用使用次数','当月视频播放类应用使用次数', '当月金融理财类应用使用总次数', '当月飞机类应用使用次数', '用户年龄','用户当月账户余额(元)', '用户账单当月总费用(元)', '用户近6个月平均消费值(元)', '缴费用户最近一次缴费金额(元)']f, ax = plt.subplots(3, 4, figsize=(20, 20))for i,name in enumerate(name_list):sns.scatterplot(data=df_data, x=name, y='信用分', color='b', ax=ax[i // 4][i % 4])
plt.show()

sns.kdeplot()核密度估计图

核密度估计是概率论上用来估计未知的密度函数,属于非参数检验,通过核密度估计图可以比较直观的看出样本数据本身的分布特征

f, ax = plt.subplots(1, 3, figsize=(10, 8))
sns.kdeplot(data=df['当月飞机类应用使用次数'], color='r', shade=True, ax=ax[0])
sns.kdeplot(data=df['当月火车类应用使用次数'], color='c', shade=True, ax=ax[1])
sns.kdeplot(data=df['当月旅游资讯类应用使用次数'], color='b', shade=True, ax=ax[2])
plt.show()

'用户最近一次缴费距今时长(月)'和'缴费用户当前是否欠费缴费'变量箱型图绘制

"""箱型图绘制 """
f, ax = plt.subplots(1, 2, figsize=(20, 6))sns.boxplot(data=df_data, x='用户最近一次缴费距今时长(月)', y='信用分', ax=ax[0])
sns.boxplot(data=df_data, x='缴费用户当前是否欠费缴费', y='信用分', ax=ax[1])
plt.show()

建立好模型后,得到MAE值为14.88,score为0.629,效果非常好。我们通过不断调参,模型可以得到更好性能。

欢迎各位学员关注系列课《python金融风控评分卡模型和数据分析》,学习更多金融建模知识:

https://edu.csdn.net/combo/detail/1927

消费者人群画像-信用智能评分(风控模型竞赛经典案例)相关推荐

  1. 消费者人群画像—信用智能评分 比赛回顾

    一.前言 这个比赛是本人参加的第一个算法比赛,纯属学习,也算是体验了一下算法比赛是怎样一个流程.当然了成绩是很一般的,而且每每成绩有所提升总是因为一些大佬又提供了新的思路与代码.不过在这种实践中也学习 ...

  2. 消费者人群画像—信用智能评分 :信用分预测

    前言 这是关于预测分数的一个比赛,本来也想了解别人的代码来思考别人是如何做的,顺便自己也要学习一下.废话不多说,这里看下如何处理数据的. 数据 探索可视化 数据集下载可以在kaggle 里找得到,ka ...

  3. 消费者人群画像 python_2019数字中国创新大赛 消费者人群画像 信用智能评分

    DCIC-2019-Credit-intelligence-score-2th-Place 2019数字中国创新大赛 消费者人群画像 亚军 赛题链接:https://www.datafountain. ...

  4. 最新风控模型竞赛开始了,金融大数据应用-企业信贷风险防控-中国建设银行数据集

    各位朋友,最新金融风控模型竞赛开始了!竞赛名称为金融大数据应用:企业信贷风险防控:组织单位:数字中国建设峰会组委会:中国建设银行提供模型竞赛数据集. 这次模型竞赛奖金很高,总奖金160万元,一等奖八万 ...

  5. 消费者人群画像 python_一步一步教你分析消费者大数据

    做过面向消费者产品解决方案的同学都知道,每个项目开始前,客户都会提一些要求或者对现在营销状况的顾虑,比如我们想了解一下我们潜在消费者是谁:怎么发优惠券效果最好:或者,我们应该推出什么样子的新产品,能够 ...

  6. 信用标准评分卡模型开发及实现

    一.信用风险评级模型的类型 信用风险计量体系包括主体评级模型和债项评级两部分.主体评级和债项评级均有一系列评级模型组成,其中主体评级模型可用"四张卡"来表示,分别是A卡.B卡.C卡 ...

  7. 消费者人群画像 python_如何正确打开相似人群画像算法

    欢迎大家前往腾讯云+社区,获取更多腾讯海量技术实践干货哦~ 一.数据源 1.相似人群数据存在TDW库中,数据字典说明: CREATE TABLE sim_people_tdw_tbl( uid STR ...

  8. arma模型_Eviews经典案例 | 初学者必看!ARMA模型精讲

    [本期分析师介绍]希音老师,<数据分析学堂>金牌分析师,对eviews的时间序列.ARMA.VAR.VECM.ARCH.GARCH等操作有深入的研究和实战经验,累计服务客户1000+.今天 ...

  9. 【风控模型】Logistic算法构建标准信用评分卡模型python代码案例

    [博客地址]:https://blog.csdn.net/sunyaowu315 [博客大纲地址]:https://blog.csdn.net/sunyaowu315/article/details/ ...

  10. 两个相邻盒子的边框怎么只显示一个_一篇文章带你快速理解盒子模型「经典案例」...

    今天带大家快速理解盒子模型,直接上代码: css盒子 我的css盒子测试模型 上面代码没有任何难度,只是写了一个div标签,大家已经知道,div标签是块级元素,所以会占满一行: 但是我们也注意到了图片 ...

最新文章

  1. 【深度学习】基于PyTorch的模型训练实用教程之数据处理
  2. 人口普查(20) PAT
  3. 写在Silverlight 5发布前 - 盘点2010年Silverlight开发书籍
  4. 帝国cms调用栏目自定义字段(栏目简介)如何操作
  5. platform 平台驱动——设备的写作流程
  6. memcached搭建缓存系统
  7. FreeSurfer Tutorial Datasets训练数据配置
  8. 数据推荐 | 自然场景OCR文字识别数据集一览
  9. JDK源码如何启动编译
  10. STC-ISP下载失败的原因小结
  11. Spring Transaction : TransactionInterceptor
  12. 即将到来的交通革命——出行即服务(MaaS)
  13. 中国移动的垃圾短信屏蔽算法?
  14. 服务器存在缓慢的HTTP拒绝服务攻击
  15. 实习每日总结_20161219
  16. ODBC连接数据库使用动态密码
  17. 主成分分析(PCA)原理及推导
  18. PostgreSQL,MongoDB,Neo4j,OrientDB和ArangoDB比较
  19. Windows中使用curl命令报错curl post [globbing] unmatched close brace/bracket in column 67
  20. 解析微分电路和积分电路的区别

热门文章

  1. 云计算数据中心是什么,云计算数据中心和传统IDC有何区别?
  2. layui标签输入框inputTags
  3. 计算机毕业设计SSM常见病辅助食疗系统【附源码数据库】
  4. 烟花背景的3D打字魔方相册(末尾附加下载地址)
  5. Stealing packets
  6. qchart 怎么点击一下 出一条线_陈奕迅唱歌技巧,学好这几点,你也能唱出更具有穿透力和磁性的声音...
  7. 解决u盘插入电脑提示扫描并修复
  8. WPS文字设置奇偶页眉、下划线的方法步骤
  9. ios开发学习--按钮(Button)效果源码分享--系列教程3
  10. 通过关键词爬取百度图片——Python爬虫