企业非法集资风险预测第一周周报

1.赛题理解

  • 背景:非法集资严重干扰了正常的经济、金融秩序,使参与者遭受经济损失,甚至生活陷入困境,极易引发社会不稳定和大量社会治安问题,甚至引发局部地区的社会动荡。如何根据大量的企业信息建立预测模型并判断企业是否存在非法集资风险,对监管部门、企业合作伙伴、投资者都具有一定的价值。

  • 任务:利用机器学习、深度学习等方法训练一个预测模型,该模型可学习企业的相关信息,以预测企业是否存在非法集资风险。赛题的难点在于数据集包括大量的企业相关信息,如何从中提取有效的特征并进行风险预测成为本赛题的关键问题。

2.数据初步认识

该数据集包含约25000家企业数据,其中约15000家企业带标注数据作为训练集,剩余数据作为测试集。数据由企业基本信息、企业年报、企业纳税情况等组成,数据包括数值型、字符型、日期型等众多数据类型(已脱敏),部分字段内容在部分企业中有缺失,其中第一列id为企业唯一标识。

  • 主要包含以下字段
    id:企业唯一标识,
    oplocdistrict:行政区划代码,
    industryphy:行业类别代码,
    industryco:行业细类代码,
    dom:经营地址,
    opscope:经营范围,
    enttype:企业类型,
    enttypeitem:企业类型小类,
    opfrom:经营期限起,
    opto:经营期限止,
    state:状态,
    orgid:机构标识,
    jobid:职位标识,
    adbusign:是否广告经营,
    townsign:是否城镇,
    regtype:主题登记类型,
    empnum:从业人数,
    compform:组织形式,
    parnum:合伙人数,
    exenum:执行人数,
    opform:经营方式,
    ptbusscope:兼营范围,
    venind:风险行业,
    enttypeminu:企业类型细类,
    midpreindcode:中西部优势产业代码,
    protype:项目类型,
    oploc:经营场所,
    regcap:注册资本(金),
    reccap:实缴资本,
    forreccap:实缴资本(外方),
    forregcap:注册资本(外方),
    congro:投资总额,
    enttypegb:企业(机构)
    (暂时只对baseinfo数据进行分析)

3.数据分析(简单操作)

  • 初步分析是很多字段的缺失值太多,下面进行简单操作对缺失值较多的字段进行直接删除
    [‘enttypeitem’, ‘opto’, ‘empnum’, ‘compform’, ‘parnum’,‘exenum’, ‘opform’, ‘ptbusscope’, ‘venind’, ‘enttypeminu’, ‘midpreindcode’, ‘protype’, ‘reccap’, ‘forreccap’, ‘forregcap’, ‘congro’]
  • 将单一值较多的字段也剔除,如dom,opscore,oploc
  • 拆分月份特征
  • 将无关特征剔除,如id

4.特征工程(暂不做处理)

5.模型选择

和之前的不良贷款预测一样,选用lgbm模型,参数设置如下

调参后续进行

6.模型融合(后续进行)

第一周先进行以上简单的操作,接下来的一个星期继续优化结果,此次提交成绩如下,0.8138

企业非法集资风险预测相关推荐

  1. 企业非法集资风险预测_2020CCF--企业非法集资风险预测83.35baseline

    企业非法集资风险预测 竞赛 - DataFountain​www.datafountain.cn 代码地址​github.com 欢迎大家开源关注我的github仓库以及该知乎专栏,该仓库用于记录和定 ...

  2. CCF2020企业非法集资风险预测-季军方案

    CCF2020企业非法集资风险预测-季军方案 原创 四位靓仔 ChallengeHub 公众号 大家好,我们是四位靓仔团队,团队成员有:致Great.lrhao.姜小帅.朋飞,感谢队友们的辛勤付出:此 ...

  3. 2020CCF BDCI 企业非法集资风险预测-线上0.848(水哥的baseline),在此基础已做到线上0.848,排名前1%(参赛队伍3000+))。

    首先感谢DataWhale这个组织,今年上半年在学校机器学习的过程中得知有这么个开源组织,南瓜书也是他们一起编写,看过西瓜书<机器学习-周志华>的同学应该都知道吧.感谢组织内的水哥和鱼佬b ...

  4. 笔记-首次参加数据挖掘比赛摸索的经验(赛题为CCF-BDCI2017企业经营退出风险预测)

    第一次参加DF的比赛(两个月前的比赛了),赛题为CCF-BDCI2017的<量子数聚-企业经营退出风险预测>,在此记录比赛过程中自己摸索的一些经验(运气使然前100进入了复赛,虽然最终离进 ...

  5. 信泰人寿与您携手共同防范非法集资风险

    为防范和处置非法集资,保护社会公众合法权益,用法治的办法加强重点领域监管,防范化解金融风险,维护经济秩序和社会稳定,国务院于2021年2月10日发布<防范和处置非法集资条例>(以下简称&l ...

  6. 【数据竞赛】风控实操案例 | 基于Xgboost与Catboost实现非法集资企业识别

    本文详解2020CCF大赛「企业非法集资风险预测」赛题的获奖参赛作品[风控案例-基于Xgboost与Catboost实现非法集资企业识别],包括数据分析.特征工程.模型训练.模型融合.模型结果展示和方 ...

  7. uci数据集中的缺失数据_从uci早期糖尿病风险预测数据集中创建分类器

    uci数据集中的缺失数据 To begin we must first go and download the dataset from the UCI dataset repository. The ...

  8. 《天池精准医疗大赛-人工智能辅助糖尿病遗传风险预测》模型复现和数据挖掘-论文_企业

    大赛概况 进入21世纪,生命科学特别是基因科技已经广泛而且深刻影响到每个人的健康生活,于此同时,科学家们借助基因科技史无前例的用一种全新的视角解读生命和探究疾病本质.人工智能(AI)能够处理分析海量医 ...

  9. 《天池精准医疗大赛-人工智能辅助糖尿病遗传风险预测》模型复现和数据挖掘-企业科研_论文作业

    大赛概况 进入21世纪,生命科学特别是基因科技已经广泛而且深刻影响到每个人的健康生活,于此同时,科学家们借助基因科技史无前例的用一种全新的视角解读生命和探究疾病本质.人工智能(AI)能够处理分析海量医 ...

最新文章

  1. 明晚8点直播 | 顺丰科技如何利用深度学习赋能智慧物流?
  2. cocos网络通信php,cocos2d-x网络编程 连接php服务器笔记2
  3. 【数值分析】迭代法解方程:牛顿迭代法、Jacobi迭代法
  4. 【知识星球】Attention网络结构上新,聚焦才能赢
  5. PPT 下载 | 神策数据徐美玲:数据分析之产品应用实践
  6. 总结XX餐饮收银项目中的得与失
  7. 【dfs】【树】机器选择
  8. 【Keras】30 秒上手 Keras+实例对mnist手写数字进行识别准确率达99%以上
  9. 基于双线性插值的图像旋转原理及MATLAB实现(非自带函数)
  10. mysql 利用触发器(Trigger)让代码更简单
  11. docker安装指南
  12. icesat-2数据下载的几种方法
  13. 用python做数学题_「文山玩Python做测试」用python做算术题,很简单
  14. 信息传输技术主要是指计算机技术和网络技术,信息传输技术主要是指什么
  15. paper report: DIRT-T
  16. 解决在微信中不能直接发送和下载APK的方案
  17. 【Django | allauth】登录_注册_邮箱验证_密码邮箱重置
  18. 【JavaWeb】1—JavaWeb概述
  19. fetion2012登录协议
  20. (4)FPGA开发工具介绍(第1天)

热门文章

  1. WSL2 | ROS 安装
  2. 拼多多拼单显示内部服务器错误,拼多多为什么拼不了?拼多多怎么拼单?
  3. c语言实现1024点fft程序,数字信号处理的步骤与注意事项,并编写1024个采样点的FFT C语言程序...
  4. VBA-with语句
  5. libtorrent java_[libtorrent] windows搭建 libtorrent 开发环境
  6. JAVA练习题:求水仙花数
  7. echarts迁徙效果
  8. 机器学习-33-Anomaly Detection(异常侦测)
  9. QQ号码丢了不用着急 一步一步找回来
  10. java模拟简单的银行账户,可用于存取款,查询业务操作