2020年数学建模国赛C题Demo【准确率只有61%,仅供参考】

MPai下载链接:www.mpaidata.com

关注公众号:【万灵数据】可以看很多很多建模资料噢

附件数据下载:https://mpaidata.lanzoui.com/iC1kAgk03ba

讲解视频:https://www.bilibili.com/video/BV1154y1C7ZC?from=search&seid=8443983732512492584

改进策略:

1,调整模型参数(效果微小)

2,扩充特征指标(效果中等)

3,扩充样本数量(效果卓越)

思路如下:

该题目可使用评分卡(量化)+机器学习解决

可以使用MPai数据科学平台 量化分析-AHP或熵权法 与监督机器学习-分类解决

C题 中小微企业的信贷决策

在实际中,由于中小微企业规模相对较小,也缺少抵押资产,因此银行通常是依据信贷政策、企业的交易票据信息和上下游企业的影响力,向实力强、供求关系稳定的企业提供贷款,并可以对信誉高、信贷风险小的企业给予利率优惠。银行首先根据中小微企业的实力、信誉对其信贷风险做出评估,然后依据信贷风险等因素来确定是否放贷及贷款额度、利率和期限等信贷策略。

某银行对确定要放贷企业的贷款额度为万元;年利率为4%~15%;贷款期限为1年。附件1~3分别给出了123家有信贷记录企业的相关数据、302家无信贷记录企业的相关数据和贷款利率与客户流失率关系的2019年统计数据。该银行请你们团队根据实际和附件中的数据信息,通过建立数学模型研究对中小微企业的信贷策略,主要解决下列问题:

(1) 对附件1中123家企业的信贷风险进行量化分析,给出该银行在年度信贷总额固定时对这些企业的信贷策略。

问题可以简单理解为,对123家企业的信贷风险进行量化(将定类数据转化为定量数据),然后给出怎么对这些企业进行评级与分配信用贷款。

我们可以看到上图,这是银行已经对这些企业打的信用评级与确认出来的是否违约,我们需要做的就是把目前所能拿到的数据转化一个定量的数据用于评价信贷风险,然后根据这个比例来按进行分配贷款。

到这里,大家应该知道要解决什么问题了,那怎么去做这件事情呢?

这里我给大家提出一种解决方案:

Step1:对数据进行缺失值和异常值处理;

(可通过MPai数据科学平台【特征工程—数据清洗—缺失值处理】、【特征工程—数据清洗—异常值处理】)

Step2:对【是否违约】建立特征工程,以特征工程为X,以【是否违约】为Y, 建立一个信誉评级分类模型,特征工程的里的字段可以是,【信誉评级】,

(1,需要转化为数值标签,可通过MPai数据科学平台【特征工程—数据清洗—数据标签转化】

2,onehot编码,可通过MPai数据科学平台【特征工程—数据清洗—独热编码】处理)

对于【进项发票信息】,可以构造特征【金额】,【税额】,【价税合计】,【发票状态】这些明面上的指标,也可以是【对企业代号进行分组,拿到的总金额、平均金额、中位数金额】,【对企业代号进行分组,拿到的总税额、平均税额、中位数税额】,【对企业代号进行分组,拿到的总价税合计、平均价税合计、中位数价税合计】,同时还可以是【对开票日期(日周月年)进行分组,拿到开票的频数(日周月年)】,【累计开票数】,【累计有效发票个数】,【累计无效开票次数】

对于【销项发票信息】,同理与上

同时我么也可以根据企业名称来进行聚类,例如科技公司,地产公司,可以通用词向量聚类,也可以通过关键词进行聚类,这样又多了一个指标,【公司类别】

以后还有【(日周月年)均净收入,净支出】(收入发票减支出发票)

总之,尽可能扩充特征工程,就我上面列出来的就有共计50特征,当然,我们还是可以尽可能地多扩充,先不管这些特征是否存在共线性。

Step3:接着,我们需要对样本数据进行均衡处理,因为我们肉眼可以看到【是否违约】存在极大的样本不均衡,这些直接训练一个分类模型会导致模型过拟合,例如我有一百个样本,99个样本是1,那么即使我瞎分类,全部判为1,准确率也是99%,样本均衡可以通过上采样或者下采样

(可通过MPai数据科学平台【特征工程—样本均衡处理】)

Step4:由于构造的特征太多了,我们需要对特征进行筛选,这里我们需要减少特征,可以选择诸如主成分分析等降维技术进行数据降维,也可以使用递归消除特征法等筛选方法来进行特征筛选,

(1,可通过MPai数据科学平台【特征工程—数据降维处理】,

2,可通过MPai数据科学平台【特征工程—特征筛选处理】)

Step5:准备工作就绪,我们可以把他丢进一个分类模型进行序列,推荐逻辑回归或者XGBOOST与随机森林,需要对数据进行切分训练,评价指标可以选择F1,可以进行各种自由调参,保证模型的最优

查看模型输出(这里只看概率),我们可以得到每个模型的【是否违约_否】的概率,这个概率就可以作为信贷风险的量化得分,然后我们这里可以进行归一化,然后按比例分配贷款。

以上方法简单粗暴,如果想要更突出的小伙伴可以使用评分卡或者AHP模型,这里举例AHP模型,信贷风险的评价指标可以分为三个内容:信誉评级,是否违约,企业流水或收入支出比,我们可以设计2个分类模型(是否违约),一个回归模型(企业流水或收入支出比),采用AHP构建判断矩阵(用德尔菲法确定输入,可以不用),然后加权来得出来信贷风险的量化得分

(1,可通过MPai数据科学平台【监督机器学习—分类】,

2,可通过MPai数据科学平台【量化分析—层次分析法】)

(2) 在问题1的基础上,对附件2中302家企业的信贷风险进行量化分析,并给出该银行在年度信贷总额为1亿元时对这些企业的信贷策略。

问题1解决了,问题二不就是重新构建特征工程X,然后把X丢进问题一训练好的模型,可以得到量化结果,按比例即可分配。

这里注意一点,由于附件2没有【信誉评级】,那么在问题1种,我们不能把【信誉评级】放入特征工程。

(3) 企业的生产经营和经济效益可能会受到一些突发因素影响,而且突发因素往往对不同行业、不同类别的企业会有不同的影响。综合考虑附件2中各企业的信贷风险和可能的突发因素(例如:新冠病毒疫情)对各企业的影响,给出该银行在年度信贷总额为1亿元时的信贷调整策略。

这里要求给出信贷调整策略,原因是突发因素会对不同行业、不同类别的企业会有不同的影响,例如对互联网行业,新冠病毒疫情是促进的,但是对于旅游业,新冠病毒疫情则导致了其大萧条,因此这里需要分不同行业来进行调整:

基于企业名的关键词同过问题1的方法可以得到行业的区分,可以通过AHP或者熵值法(需要自行爬取数据)等量化模型对不同行业构建判断矩阵,得到他们的权重比,然后加权在问题2的信贷风险量化得分上,即为一个比较有理,简单的解决方案。

2020年数学建模国赛C题Demo【准确率只有61%,仅供参考】相关推荐

  1. 2020年数学建模国赛C题

    2020年数学建模国赛C题题目: 后续会更新解题思路,在此可以看下面的一篇论文 基于贝叶斯神经网络的信贷策略规划研究

  2. 2020年数学建模国赛B题题目和解题思路

    2020年数学建模国赛B题题目: 考虑如下的小游戏:玩家凭借一张地图,利用初始资金购买一定数量的水和食物(包括食品和其他日常用品),从起点出发,在沙漠中行走.途中会遇到不同的天气,也可在矿山.村庄补充 ...

  3. 2020年数学建模国赛A题题目和解题思路

    2020年数学建模国赛A题: 在集成电路板等电子产品生产中,需要将安装有各种电子元件的印刷电路板放置在回焊炉中,通过加热,将电子元件自动焊接到电路板上.在这个生产过程中,让回焊炉的各部分保持工艺要求的 ...

  4. 2020年数学建模国赛B题解题思路

    2020年数学建模国赛B题题目: 考虑如下的小游戏:玩家凭借一张地图,利用初始资金购买一定数量的水和食物(包括食品和其他日常用品),从起点出发,在沙漠中行走.途中会遇到不同的天气,也可在矿山.村庄补充 ...

  5. 2020年数学建模国赛C题完整代码下载链接处

    2020年数学建模国赛C题完整代码 因为私信找小编要论文的友友们实在太多了,所以这里直接开源2020年高教社杯数学建模C题的完整代码如下: 需要的小伙伴们,可以利用百度网盘来提取相关资料 ~~ ~~ ...

  6. 2020年数学建模国赛C题题目和解题思路

    2020年数学建模国赛C题题目: 在实际中,由于中小微企业规模相对较小,也缺少抵押资产,因此银行通常是依据信贷政策.企业的交易票据信息和上下游企业的影响力,向实力强.供求关系稳定的企业提供贷款,并可以 ...

  7. 2020年数学建模国赛D题题目和解题思路

    2020年数学建模国赛D题题目: 轮廓仪是一种两坐标测量仪器(见图1),它由工作平台.夹具.被测工件.探针.传感器和伺服驱动等部件组成(见图2). 图1 某种型号的接触式轮廓仪 图2 接触式轮廓仪的示 ...

  8. 【练习笔记(第一次)】2020年数学建模国赛C题:数据处理、源代码

    前言 本来因为ACM竞赛培训的原因没有参加数学建模的培训和系列赛事,开学被同学拉过来凑数,就这样阴差阳错的参加了一次数学建模国赛.由于没有系统的学习数学建模,还是第一次接触数学建模正式赛事,所以论文写 ...

  9. 2020年数学建模国赛B题“穿越沙漠”思路

    目录 原题 关键词 目标 问题一分析 问题二分析 问题三分析 比赛后的一些些感想 原题 考虑如下的小游戏:玩家凭借一张地图,利用初始资金购买一定数量的水和食物(包括食品和其他日常用品),从起点出发,在 ...

最新文章

  1. 编写jQueryUI插件(widget)
  2. hashmap实现倒排索引——查询多个单词出现在多个句子中
  3. Windows Server 2008 R2 负载平衡入门篇
  4. wex5 php开发,WeX5平台PHP开发 使用说明文档
  5. error: ‘CV_BGR2RGB’ was not declared in this scope
  6. mysql 分区 导出_mysql普通表变成分区表导入导出
  7. Flex Gumbo中如何自定义HSlider数据Tip样式的例子
  8. Unity学习笔记(一)——C#语法基础
  9. L298N电机驱动原理图+PCB制版文件(和你买的模块一模一样的!)
  10. pygame网络游戏_7_1:地图编辑器的使用
  11. 六自由度机械臂运动学分析及其轨迹规划
  12. Android应用开发——记事本
  13. 《今日求职》之拉勾网Android客户端产品说明
  14. 【DDR3_Electrical Characteristics and AC Timing】_ Setup,Hold and Slew Rate Derating
  15. 假设检验3- 卡方分布
  16. uestc oj 1831 论程序的阿卡林化
  17. VB编程:利用循环嵌套求1000以内的完数-18
  18. 中华人民共和国刑事诉讼法
  19. pytest之命名规则和运行方式
  20. 关于debain缺少声卡和无线网卡专有驱动的解决办法

热门文章

  1. 【架构】大数据风控数据系统架构
  2. 如何把自媒体平台文章同步到WordPress等网站
  3. git android pdk,Android源码下载,Syncing work tree: error
  4. xshell服务器登陆django
  5. ZYNQ LWIP实验
  6. 服务器运行Microsoft.Office.Interop.Word出错{00024500-0000-0000-C000-000000000046}问题总结
  7. 支付宝企业账户单笔支付到个人账户
  8. vue 生命周期及watch、计算属性等等的理解
  9. 实用科普|推荐收藏:我的车,到底该选什么功率充电桩?
  10. 关于节日文化的HTML网页设计-----二十四节气