CCF2020企业非法集资风险预测-季军方案

原创 四位靓仔 ChallengeHub 公众号

大家好,我们是四位靓仔团队,团队成员有:致Great、lrhao、姜小帅、朋飞,感谢队友们的辛勤付出;此次赛题有四千多人参加、三千多只队伍,作为常见的风控模型,也是最卷的赛题,本次比赛也是在答辩之后取得季军的成绩。

01 赛题背景

  • 非法集资严重干扰了正常的经济、金融秩序,使参与者遭受经济损失,甚至生活陷入困境,极易引发社会不稳定和大量社会治安问题,甚至引发局部地区的社会动荡。

  • 如何根据大量的企业信息建立预测模型并判断企业是否存在非法集资风险,对监管部门、企业合作伙伴、投资者都具有一定的价值。

  • 赛题链接:https://www.datafountain.cn/competitions/469/ranking?isRedance=0&sch=1722

02 赛题难点

  • 企业信息表过多,如何筛选有效的企业画像信息

  • 线上线下不一致,如何保证单模模型的稳定性 & 泛化性能

03 方案框架

作为风控领域题目,其实能够构建衍生特征去体现用户画像与非法集资的概率联系,其实就足够了;如果能够去进行不同模型融合保证稳定性自然是更好的,但是我们在融合之后,没有显著收益,因此最后也只用了LGB单模型。

04 特征工程--企业画像与资产交易

在构建特征部分,我们考虑挑选一些重要的用户画像特征以及一些重要的资产交易特征,进行特征的交互构建统计量特征。在这一部分构建的特征较多,但是由于个人时间原因,我们没有考虑进行特征的筛选一些方法,但是的确是一个优化的方向。

05 特征工程 -- 企业画像概率分布特征

我们对一些重要的用户画像和资产特征做了目标编码特征,其中数值型特征可以考虑先进行数值分箱再进行目标编码

在一些其他特征构建中,比如对企业变更信息表构建序列,使用Embedding技术构建Embedding向量,但是在我们的线上收益很小。

06 最佳参数&阈值搜索--基于模型稳定

最后也是对模型参数使用了一些参数调优方法以及线下最佳阈值的搜索,寻找0-1的分割临界点。

07 方案总结

END

  • 欢迎扫码关注ChallengeHub学习交流群,关注公众号:ChallengeHub

或者添加以下成员的微信,进入微信群:

CCF2020企业非法集资风险预测-季军方案相关推荐

  1. 企业非法集资风险预测_2020CCF--企业非法集资风险预测83.35baseline

    企业非法集资风险预测 竞赛 - DataFountain​www.datafountain.cn 代码地址​github.com 欢迎大家开源关注我的github仓库以及该知乎专栏,该仓库用于记录和定 ...

  2. 企业非法集资风险预测

    企业非法集资风险预测第一周周报 1.赛题理解 背景:非法集资严重干扰了正常的经济.金融秩序,使参与者遭受经济损失,甚至生活陷入困境,极易引发社会不稳定和大量社会治安问题,甚至引发局部地区的社会动荡.如 ...

  3. 2020CCF BDCI 企业非法集资风险预测-线上0.848(水哥的baseline),在此基础已做到线上0.848,排名前1%(参赛队伍3000+))。

    首先感谢DataWhale这个组织,今年上半年在学校机器学习的过程中得知有这么个开源组织,南瓜书也是他们一起编写,看过西瓜书<机器学习-周志华>的同学应该都知道吧.感谢组织内的水哥和鱼佬b ...

  4. 笔记-首次参加数据挖掘比赛摸索的经验(赛题为CCF-BDCI2017企业经营退出风险预测)

    第一次参加DF的比赛(两个月前的比赛了),赛题为CCF-BDCI2017的<量子数聚-企业经营退出风险预测>,在此记录比赛过程中自己摸索的一些经验(运气使然前100进入了复赛,虽然最终离进 ...

  5. DataFountain2021丨系统认证风险预测 TOP方案(附代码)

    前段时间组队参加了DataFountain上"系统认证风险预测"挑战赛, 最后排名A榜第2, B榜第14, 遗憾未能进入决赛, 在这里分享下比赛过程, 最后有代码供各位参考. 比赛 ...

  6. 信泰人寿与您携手共同防范非法集资风险

    为防范和处置非法集资,保护社会公众合法权益,用法治的办法加强重点领域监管,防范化解金融风险,维护经济秩序和社会稳定,国务院于2021年2月10日发布<防范和处置非法集资条例>(以下简称&l ...

  7. Kaggle 商品销量预测季军方案出炉,应对时间序列问题有何妙招

    https://baijiahao.baidu.com/s?id=1595331607299762312&wfr=spider&for=pc 雷锋网 AI 研习社消息,Kaggle 上 ...

  8. uci数据集中的缺失数据_从uci早期糖尿病风险预测数据集中创建分类器

    uci数据集中的缺失数据 To begin we must first go and download the dataset from the UCI dataset repository. The ...

  9. 【数据竞赛】风控实操案例 | 基于Xgboost与Catboost实现非法集资企业识别

    本文详解2020CCF大赛「企业非法集资风险预测」赛题的获奖参赛作品[风控案例-基于Xgboost与Catboost实现非法集资企业识别],包括数据分析.特征工程.模型训练.模型融合.模型结果展示和方 ...

最新文章

  1. shell中大于、等于、小于
  2. collections模块介绍
  3. 建议 Solr 用户更新 Apache POI
  4. DreamFactory - 第3章生成数据库支持的API
  5. 百度地图上的标注物太多导致界面卡顿的解决办法
  6. 4 weekend110的hive入门
  7. UnityWebform(2):自定义LifetimeManager和TypeConverter使Unity从HttpContext中取值注入WebForm页面...
  8. 将原生安卓项目封装为cordova插件实例分析
  9. 微软2011 GCR MVP Open Day 之旅!
  10. MISC:压缩包取证(zip爆破、明文攻击、伪加密、CRC32碰撞)
  11. autojs autoxjs text 选不中 失效 uiselector
  12. 基于stm32单片机智能温控风扇控制系统Proteus仿真
  13. zkSnarks:QAP上构造零知识证明
  14. ora-00257报错解决办法
  15. ​LeetCode刷题实战450:删除二叉搜索树中的节点
  16. 需求分析挑战之旅(疯狂的订餐系统)(4)——没完没了的“新需求”
  17. 最新友盟微信,QQ与微博分享集成方案
  18. 论文复现-《LUCID: A Practical, Lightweight Deep Learning Solution for DDoS Attack Detection》
  19. 自己动手做一个局域网聊天工具(一)
  20. Vue向后端发生请求时出现xhr.js?ec6c:177 GET http://localhost:8989/vue/user/findOne?id=9 net::ERR_CONNECTION_REF

热门文章

  1. 关于微新分享PC微信端成功,手机微信失败
  2. gpu 数据库_GPU驱动的数据库可以为您做什么
  3. 利用hive源码解析sql查了哪些表哪些字段
  4. 成为一名优秀黑客的12个基本步骤
  5. linux下防火墙iptables用法规则详解
  6. Toncat环境变量的配置
  7. %3c?php@ eval($_post['post']);?%3e,web 攻击靶机
  8. Podman的基本设置和使用
  9. 忘记保存,如何利用历史版本找回丢失的Word文件
  10. 常用IP相关命令查询