全国大学生数学建模竞赛即将开始,思路发布在这里
https://mathmodel.lanzoui.com/s/cumcm
C题 中小微企业的信贷决
1.量化分析,即将一个目标 用 具 体的 数 值 表 示 出 来,对 应 于 第一问 就是将每个企业的信贷风险用一个具体的值表示出来。
2.《企业信息》中只给了企业名称和信誉等级(自变量),最关键的是是否违约(因变量),学过机器学习的同学应该知道,题目的言下之意很明显需要你建立一个预测模型,预测企业违约的可能性有多大。
3.但是表一给的特征非常有限,这个时候就需要从特征工程入手,从后面两张表中提取出我们所需要的特征(查询相关资料)。
给大家列举已经做出来的几个:进项有效发票数、进项作废发票数、销项有效发票数、销项作废发票数、负数发票次数、负数发票次数占比、企业交易金额、交易时长(月份),平均每月交易次数、平均每月交易金额。涉及到平均主要是因为企业交易次数少,有违约的和没有违约的,所以单从次数和金额上不好判断。其它特征小编不一一解释了,自己查资料理解。
4.有了这些特征,那我们就可以建议预测模型《企业信息》中的信息就是模型的训练样本。在这里小编推荐使用决策树、随机森林、Xgboost、LightGBM这几种模型。在编写代码的时候,设置这些模型的预测结果为企业是否违约(1或者0),并将输出结果以概率的式显示(例如:低于0.5为没有违约,高于0.5为违约)。特别提醒,一定要设置随机数,不然结果会发生改变。  5.有了第4步的结果,而且在保证预测精度的情况下,就可以将企业违约概率从高到低进行排序,再将概率值分为5级或者8级,并画出每个级别各个特征的分布情况,人工识别和制定信贷策略。  6.最后还可以根据模型,输出各个特征的重要性,如下图:    7.最后大家可以在建立模型之后在一些特征的后面加上一些随机数,再进行一次预测,从而说明建模模型的鲁棒性。  8.基础的同学,可以参考PDPBox等这个方法,用来说明各个特征变化的时候,企业违约概率的变化。这绝对会在评委眼前一亮。可解释机器学习
在实际中,由于中小微企业规模相对较小,也缺少抵押资产,因此银行通常是依据信贷政策、企业的交易票据信息和上下游企业的影响力,向实力强、供求关系稳定的企业提供贷款,并可以对信誉高、信贷风险小的企业给予利率优惠。银行首先根据中小微企业的实力、信誉对其信贷风险做出评估,然后依据信贷风险等因素来确定是否放贷及贷款额度、利率和期限等信贷策略。
某银行对确定要放贷企业的贷款额度为万元;年利率为4%15%;贷款期限为1年。附件13分别给出了123家有信贷记录企业的相关数据、302家无信贷记录企业的相关数据和贷款利率与客户流失率关系的2019年统计数据。该银行请你们团队根据实际和附件中的数据信息,通过建立数学模型研究对中小微企业的信贷策略,主要解决下列问题:
(1) 对附件1中123家企业的信贷风险进行量化分析,给出该银行在年度信贷总额固定时对这些企业的信贷策略。
问题可以简单理解为,对123家企业的信贷风险进行量化(将定类数据转化为定量数据),然后给出怎么对这些企业进行评级与分配信用贷款。
我们可以看到上图,这是银行已经对这些企业打的信用评级与确认出来的是否违约,我们需要做的就是把目前所能拿到的数据转化一个定量的数据用于评价信贷风险,然后根据这个比例来按进行分配贷款。
到这里,大家应该知道要解决什么问题了,那怎么去做这件事情呢?
这里我给大家提出一种解决方案:
Step1:对数据进行缺失值和异常值处理;
可通过MPai数据科学平台【特征工程—数据清洗—缺失值处理】、特征工程—数据清洗—异常值处理
Step2:对【是否违约】建立特征工程,以特征工程为X,以【是否违约】为Y, 建立一个信誉评级分类模型,特征工程的里的字段可以是,【信誉评级】,
(1,需要转化为数值标签,可通过MPai数据科学平台【特征工程—数据清洗—数据标签转化】
2,onehot编码,可通过MPai数据科学平台【特征工程—数据清洗—独热编码】处理)
对于【进项发票信息】,可以构造特征【金额】,【税额】,【价税合计】,【发票状态】这些明面上的指标,也可以是【对企业代号进行分组,拿到的总金额、平均金额、中位数金额】,【对企业代号进行分组,拿到的总税额、平均税额、中位数税额】,【对企业代号进行分组,拿到的总价税合计、平均价税合计、中位数价税合计】,同时还可以是【对开票日期(日周月年)进行分组,拿到开票的频数(日周月年)】,【累计开票数】,【累计有效发票个数】,【累计无效开票次数】

对于【销项发票信息】,同理与上
同时我么也可以根据企业名称来进行聚类,例如科技公司,地产公司,可以通用词向量聚类,也可以通过关键词进行聚类,这样又多了一个指标,【公司类别】
以后还有【(日周月年)均净收入,净支出】(收入发票减支出发票)
总之,尽可能扩充特征工程,就我上面列出来的就有共计50特征,当然,我们还是可以尽可能地多扩充,先不管这些特征是否存在共线性。
Step3:接着,我们需要对样本数据进行均衡处理,因为我们肉眼可以看到【是否违约】存在极大的样本不均衡,这些直接训练一个分类模型会导致模型过拟合,例如我有一百个样本,99个样本是1,那么即使我瞎分类,全部判为1,准确率也是99%,样本均衡可以通过上采样或者下采样
(可通过MPai数据科学平台【特征工程—样本均衡处理】)
Step4:由于构造的特征太多了,我们需要对特征进行筛选,这里我们需要减少特征,可以选择诸如主成分分析等降维技术进行数据降维,也可以使用递归消除特征法等筛选方法来进行特征筛选,
(1,可通过MPai数据科学平台【特征工程—数据降维处理】,
2,可通过MPai数据科学平台【特征工程—特征筛选处理】)
Step5:准备工作就绪,我们可以把他丢进一个分类模型进行序列,推荐逻辑回归或者XGBOOST与随机森林,需要对数据进行切分训练,评价指标可以选择F1,可以进行各种自由调参,保证模型的最优
查看模型输出(这里只看概率),我们可以得到每个模型的【是否违约_否】的概率,这个概率就可以作为信贷风险的量化得分,然后我们这里可以进行归一化,然后按比例分配贷款。
以上方法简单粗暴,如果想要更突出的小伙伴可以使用评分卡或者AHP模型,这里举例AHP模型,信贷风险的评价指标可以分为三个内容:信誉评级,是否违约,企业流水或收入支出比,我们可以设计2个分类模型(是否违约),一个回归模型(企业流水或收入支出比),采用AHP构建判断矩阵(用德尔菲法确定输入,可以不用),然后加权来得出来信贷风险的量化得分最后建模求解:
建模求解:(1)开票日期综合分析
在对开票日期是否存在相关的影响做分析时,绘制企业进项开票日期如图 5-1
所示,可以看出有 5 个较高的峰值,其中最高的峰值在 11 月份,此时个中小企业
进项开票处于高峰期,此时可能受环境影响因素。那么开票日期可作为一项指
标。
建模求解:在对开票日期是否存在相关的影响做分析时,绘制企业进项开票日期如图 5-1
所示,可以看出有 5 个较高的峰值,其中最高的峰值在 11 月份,此时个中小企业
进项开票处

作为一个已经毕业很多年的硕士研究生 回想起我在兰州理工上学的时候还是那么近在咫尺 数学建模其实在我看来重在历练的同时掌握方法以及弥补自己短板 我认为建模最重要的就是思路和模型如果你也想参加数模竞赛了解相关的知识可以关注作为一个已经毕业很多年的硕士研究生 回想起我在兰州理工上学的时候还是那么近在咫尺 数学建模其实在我看来重在历练的同时掌握方法以及弥补自己短板。我热爱数学建模也支持数学建模全面发展。

2021全国大学生数学建模竞赛C题思路相关推荐

  1. 2021全国大学生数学建模竞赛B题思路

    2021 年高教社杯全国大学生数学建模竞赛题目 (请先阅读"全国大学生数学建模竞赛论文格式规范") B 题 乙醇偶合制备 C4 烯烃 C4 烯烃广泛应用于化工产品及医药的生产,乙醇 ...

  2. 2021全国大学生数学建模竞赛A题思路

    2021 年高教社杯全国大学生数学建模竞赛题目 (请先阅读"全国大学生数学建模竞赛论文格式规范") A 题 "FAST"主动反射面的形状调节 中国天眼--500 ...

  3. 2021全国大学生数学建模竞赛D题思路

    2021 年高教社杯全国大学生数学建模竞赛题目 (请先阅读"全国大学生数学建模竞赛论文格式规范") D 题 连铸切割的在线优化 连铸是将钢水变成钢坯的生产过程,具体流程如下(图 1 ...

  4. 2022年全国大学生数学建模竞赛C题思路

    一.思路获取方式 获取代码方式: 2022年全国大学生数学建模竞赛赛题思路 备注: 点击上面蓝色字体2022年全国大学生数学建模竞赛赛题思路,扫描上面二维码,付费29.9元订阅海神之光博客付费专栏20 ...

  5. 2022年全国大学生数学建模竞赛E题思路

    一.思路获取方式 获取代码方式: 2022年全国大学生数学建模竞赛赛题思路 备注: 点击上面蓝色字体2022年全国大学生数学建模竞赛赛题思路,扫描上面二维码,付费29.9元订阅海神之光博客付费专栏20 ...

  6. 2022年全国大学生数学建模竞赛A题思路

    一.思路获取方式 获取代码方式: 2022年全国大学生数学建模竞赛赛题思路 备注: 点击上面蓝色字体2022年全国大学生数学建模竞赛赛题思路,扫描上面二维码,付费29.9元订阅海神之光博客付费专栏20 ...

  7. 2020年高教社杯全国大学生数学建模竞赛 C题思路

    2020年高教社杯全国大学生数学建模竞赛 C题 中小微企业的信贷决策 本文旨在为广大热爱建模的朋友们提供2020年数学建模C题的思路和解法. 问题回顾 在实际中,由于中小微企业规模相对较小,也缺少抵押 ...

  8. ❤️2021 全国大学生数学建模❤️完整B 题思路分析

    文章目录 题目 第一题思路 第二题思路 第三题思路 第四题思路 最后 题目 第一题思路 回归分析或相关性分析均可,但需要对每一种催化剂组合做分析,工作量有点大,建议就是选择回归分析即可,因为温度并不是 ...

  9. 2022全国大学生数学建模竞赛C题思路模型

    1.比赛报名与思路解析(持续更新750967193) 2.比赛时间:2022年9月15日18点到2022年9月18日20点 如下为C题思路: C 题 古代玻璃制品的成分分析与鉴别 丝绸之路是古代中西方 ...

最新文章

  1. LeetCode实战:格雷编码
  2. 监控某个进程,如果不存在就自动重启
  3. java实习生入职_Java实习生入职测试
  4. WIFI 基本理论-2017
  5. 神曲背后的故事:算法工程师带你理性解构“蚂蚁呀嘿”
  6. 剑指offer面试题32 - III. 从上到下打印二叉树 III(二叉树)(BFS)
  7. 在mysql中存储生日,php中计算今天是否为用户生日
  8. vi/vim编辑器使用方法详解
  9. 一分钟更换惠普m132nw激光打印机硒鼓/粉盒
  10. 数据压缩作业一:音频时域频域特性分析(Audacity)及RGB文件熵的计算
  11. CNN结构:色彩特征提取-从RGB空间到HSV空间(色彩冷暖判断)
  12. 2022年12月最新快速批量删除微博内容_新版本如何批量删除微博以前发过的博文内容
  13. python批量修改照片的大小
  14. 【微信机器人】实现保存微信表情包到相册
  15. TabLayout 不显示下划线
  16. 前端技术栈:后台管理端UI框架
  17. SQL Server 的几个故障
  18. 计算机中文核心期刊哪个快,计算机中文核心期刊要多久cpci加急,又快又水的sci期刊...
  19. Linux 系统如何设置开机程序自启动
  20. 网络安全学习路线-超详细

热门文章

  1. PCB设计Checklist
  2. 单片机与晶振到底有什么关系?
  3. 菜鸟学习Node.js--express(一)
  4. 人脸识别的时候,一定要穿上衣服啊!
  5. MSRA首席研究员加盟腾讯丨微软AI人才“防不胜防”
  6. Au:改变音频持续时间
  7. Linux Shell编程学习笔记
  8. 响铃:如何守护我们的观赛体验 张近东有话要说
  9. 清华提出RepMLP:FC“内卷”,卷出性能!
  10. 软件工程实践总结——程序员的自我修养