背景介绍与评分卡模型的基本概念

如今在银行、消费金融公司等各种贷款业务机构，普遍使用信用评分，对客户实行打分制，以期对客户有一个优质与否的评判。交易对手未能履行约定契约中的义务而造成经济损失的风险,即受信人不能履行还本付息的责任而使授信人的预期收益与实际收益发生偏离的可能性它是金融风险的主要类型。

巴塞尔协议定义金融风险类型：市场风险、作业风险、信用风险。信用风险ABC模型有进件申请评分、行为评分、催收评分。

坏样本的定义

M3 & M3+ 逾期
债务重组
个人破产
银行主动关户或注销
其他相关违法行为

M0,M1,M2的定义

M0:最后缴款日的第二天到下一个账单日
M1:M0时段的延续,即在未还款的第二个账单日到第二次账单的最后缴款日之间
M2:M1的延续,即在未还款的第三个账单日到第三次账单的最后缴款日之间

信用卡账单日是指发卡银行每月会定期对你的信用卡账户当期发生的各项交易，费用等进行汇总结算，并结计利息，计算你的当期总欠款金额和最小还款额，并为你邮寄账单，此日期即为账单日。而还款日则是指信用卡发卡银行要求持卡人归还应付款项的最后日期。

简单点说，银行会对你的当期应还款形成账单并通知你，账单形成日即为账单日，同时，银行不会要求你马上就还款，而是会给你一个缓冲期，通常是20天（具体根据各银行制定标准），该期限截止日即为还款到期日。这20天之内全额还款或是选择信用卡最低还款额方式还款，可以享受免息待遇，但如果逾期，就会计息了。

什么是评分卡

信贷场景中的评分卡

以分数的形式来衡量风险几率的一种手段
是对未来一段时间内违约/逾期/失联概率的预测
有一个明确的(正)区间
通常分数越高越安全
数据驱动（搜集数据，对数据研究，建立模型）
反欺诈评分卡、申请评分卡(Application)、行为评分卡(Behavior)、催收评分卡(Collection)

①反欺诈评分卡、申请评分卡是在贷前准入环节里面
②申请评分卡用到的大部分是申请者的背景变量，而且这个模型一般也会比较谨慎。
③行为评分卡表示申请者已经获准贷款，已经放出贷款以后，根据贷款人的消费习惯，还款情况等一些信用特征，就是跟踪客户合同开始后的表现，来预估用户逾期或者是违约概率。
④催收评分卡是对已经逾期或者违约的客户，对他进行一个催收评分，严格来讲，有三个模型，还款率模型，账龄滚动模型，失联模型。

本篇主要讲的是申请评分卡模型。

观察期与表现期

观察期

搜集变量、特征的时间窗口,通常3年以内
带时间切片的变量（比如过去半年还款情况；过去每个月最大还款额等带时间切片的特征）

表现期

搜集是否触发坏样本定义的时间窗口,通常6个月~1年

　　需要对这张图进行一个详细的说明，观察点不一定是哪一天，可以是一段时间内，在某个时间区间内所有申请人，只要他们观察期和表现期相同即可。举例来说，当一个申请人在2017-7-14号这天来银行申请贷款，银行需要用已有的模型对申请人进行一个申请评分，评估他未来一年（表现期）内违约或者是逾期的概率，然后决定是否放贷。那么这个已有的模型是什么时候建立的呢？这里我们假定观察期为三年，因为上面是评估一年所以这里表现期为一年，那么往前推一年为2016-7-14号左右某个时间区间内作为观察点，再往前推三年（即观察期：2013-7-14到2016-7-14），利用这三年所有观察点内申请人一些信息建立模型的观察变量（即特征），然后再往后推一年（即表现期：2016-7-14到2017-7-14），所有在观察点内的申请人在这一年时间内的表现情况来定义违约。然后来训练出一个模型。对2017-7-14号的申请人进行评分。所以申请评分卡模型有着天然的滞后性，需要不断的对其模型进行监控。

典型风控体系

贷前、贷中和贷后三个阶段，每个阶段都有相应的研究问题。

贷前 在客户获取期 主要解决用户准入和风险定价问题，即面对一个新申请的进件用户，判断用户是否符合产品的放款条件及相应的放款额度、价格、期限等问题。主要包括三类问题：

1）反欺诈识别：根据用户提交的材料进行身份核实，确保用户不存在欺诈行为；

2）信用评级：与传统银行的信用评分卡原理一致，综合用户的社交数据、行为数据、收入数据等，判定用户的信用风险等级，评估用户的履约能力；

3）风险定价：根据用户的负债能力和收入稳定性，判断用户可承担的月供金额，确定用户的放款额度、偿还期限等，并根据用户风险等级确定用户的费率。这三个问题往往是互相影响、互为前提的。比如，对一个月收入3000的用户来说，月供在1000左右，用户可能履约良好，信用等级良好；但如果月供提高到4000，严重超出了其收入水平，即便不是有意欺诈，也可能出现断供的情况，从而得到比较差的信用等级。

贷中 在客户申请处理期 一般是针对已放款用户展开。主要研究问题包括：

1）还款风险监控：比如用户会否因失业、过度举债、家庭突发状况等一些突发原因导致还款能力降低，出现逾期风险；

2）贷中风险的政策制定：当用户出现逾期风险时，如何根据用户风险原因制定相应的策略，减少机构损失。如为经济暂时困难的用户主动延长还款期限、减少月供，甚至提供延期还款服务；

3）用户复贷：对履约良好，且收入水平明显改善的用户，提供增信服务，以满足其更高水平的消费信贷需求；或在其授信额度范围内，提供循环信贷服务。

贷后一般是针对逾期用户展开。由于用户已经出现逾期，贷后风控的目标是如何刺激用户还款减少损失。主要研究问题包括：

1）催收评分卡：将用户按照催收难度划分等级，并制定相应的催收策略。如对偶然逾期、出现暂时性困难的用户，主动沟通帮助其度过眼前困难，一方面减少了机构损失，另一方面也有助于与用户建立长远的信任关系；而对严重逾期的用户，可能需要让更有催收经验的人员介入沟通，甚至采取必要的法律途径；

2）催收策略制定：由于互联网金融主要进行电话催收，而用户提供的通话记录或联系人往往内容复杂且包含大量噪音，如何从中准确找出联系紧密的电话，提升催收效率；

3）失联修复：对已经失联用户，如何触达，进行用户找回；

其中，贷前反欺诈评分卡一般称为F卡；信用评分卡一般称为A卡；贷中评分卡称为B卡；贷后催收评分卡称为C卡

A卡（Application score card）申请评分卡
B卡（Behavior score card）行为评分卡
C卡（Collection score card）催收评分卡

评分机制的区别在于：

1.使用的时间不同。分别侧重贷前、贷中、贷后；

2.数据要求不同。A卡一般可做贷款0-1年的信用分析，B卡则是在申请人有了一定行为后，有了较大数据进行的分析，一般为3-5年，C卡则对数据要求更大，需加入催收后客户反应等属性数据。

3.每种评分卡的模型会不一样。在A卡中常用的有逻辑回归，AHP等，而在后面两种卡中，常使用多因素逻辑回归，精度等方面更好。

信用评分是指根据银行客户的各种历史信用资料，利用一定的信用评分模型，得到不同等级的信用分数，根据客户的信用分数，授信者可以通过分析客户按时还款的可能性，据此决定是否给予授信以及授信的额度和利率。

虽然授信者通过人工分析客户的历史信用资料，同样可以得到这样的分析结果，但利用信用评分却更加快速、更加客观、更具有一致性。

本文重点介绍A卡的建模过程

一确定预测目的

申请信用评分卡的预测目的自然是申请客户信用面的逾期概率，通常一个客户逾期缘由可以从大方向分为两种，一种是还款意愿，一种是还款能力。申请信用评分卡主要评估客户的还款能力，但有时意愿和能力的界限并没有想象的那么清晰，通常还款能力不足的样本还款意愿也较低。

恶意欺诈一般认为是贷款人的还款意愿不足导致的，尤其是恶意逾期，即在前几期就开始大量逾期的样本，所以信用评分的样本需要考虑是否要将恶意逾期的样本放进来。套现的情况比恶意欺诈要好一些，一般公司会在一定限度容忍这种情况的发生，但当套现带上团伙性质时，则需要及时收紧策略进行防范。

二.数据样本获取

确定预测目的后，我们就需要框定我们的样本范围，通常在一个公司中，你会遇到不同产品，不同渠道进来的申请。所以你需要确定，这些不同的样本之间在风险上和数据上有没有差异。如果差异较大，建议做多个模型，适用不同的场景

我们预测的是信用面的风险，通常在不同场景中有许多异常样本，这种异常样本通常是由其他外部因素造成的，比如医美分期、教育分期场景中，商户面造成的风险样本应该剔除，如服务纠纷导致的客户逾期，商户跑路导致的客户逾期等，都需要做清洗，这样拿到的样本才合理。

收集并整合在库客户的数据，定义目标变量，排除特定样本。用于建模的客户或者申请者必须是日常审批过程中接触到的，需要排除异常情况。如欺诈，特殊客户。

根据不同的数据来源，可以分为以下几类：
1.人口统计特征：客户的基本特征，如性别，年龄、居住情况、年收入等
2.征信机构数据和外部评分:如人行征信报告、芝麻分等。
3.其他数据来源。

框定样本的范围后，就可以开始进行样本的选择，通俗点来说，就是获取好坏样本，所以这里要基于具体情况对好坏样本下一个合理的定义。这里的定义通常与好、坏样本的逾期天数，好样本的还款比例有关。

所谓的具体情况，一是要看“米”有多少，二是要看“米”有多好，通常前者更重要一些。如果你样本较少，就可以适当放宽好坏样本的选择，如果样本够多，可以适当加严，但同时需要注意中间样本（即介于好坏之间的样本）的占比不要过高。

坏样本通常卡一个最大逾期天数，这个逾期天数的限定需要看逾期的滚动率，比如从M1滚动到M2的比例只有10%，而M2滚动到M3的比例可能有80%，那么你就可以定义逾期大于30天以上的样本为坏样本，当然这个逾期天数并没有精确到具体期数，通常前期逾期大于30天的人要比后面逾期的人更坏一些，这个度可以自己琢磨。另外对于那种恶意逾期的人，即从第一期开始就没还款或只还过极少量贷款的人要不要放进来，也可以看具体情况，通常在模型建立完之后，需要看一下模型对这类人的预测效果。

好样本通常卡一个小的逾期天数和一个较大的还款比例，这个逾期天数和还款比例也可以参照上文逾期滚动的方法来确定，比如，一个人逾期多少天之后会继续逾期下去，或者一个人一般还到多少期之后逾期的概率会非常小，据此就可以确定这两个阈值。
预测模型的一个基本原理是用历史数据来预测未来，申请者评分模型需要解决的问题是未来一段时间（如12个月）客户出现违约（如至少一次90天或90天以上逾期）的概率。先将客户标签定义为二分类，不良/逾期：观察窗口内，观察窗口内，60/90/120天算逾期日期；良好:从未或截止逾期；从未或在观察期内截止逾期

确定违约日期时长、观察窗口期设置

违约时长的确定可以使用逾期转移矩阵来确定

通过上图可以看出来，M3客户变坏的概率为93%.也就是说当客户逾期超过60天后，被催回的几率为7%。因此，可以定义逾期超过60天的客户为坏客户。

违约窗口期设置——账龄分析

一般情况下巴塞尔协议硬性要求12个月及以上作为窗口期。一般情况下，观察窗口=3-5倍的预测窗口，同时决定信用评等模型开发所需数据期间长度，一般又会从最新资料的留存时点开始推算，利用账龄分析观察目标客户的违约成熟期长度，借此设定观察期长度（预测窗口的时间长度）。比如2017.04开卡的人，第10个月，稳定成熟了，观察窗口时间可以确定为10-12个月；2017.05开卡的人，第11个月，稳定成熟了，观察窗口时间可以确定为11-12个月。
好坏客户标签
通过观察转移矩阵和账龄，我们定义在10-12月逾期超过60天的客户为坏客户。同时第十个月没有发生逾期的客户定义为好客户。那逾期天数在0-60之间的客户怎么定义呢，，比如45天，这样的客户不能简单的将其归为好客户或坏客户，需要暂时将他从模型样本中摘除，将其定义为不确定的客户。

三.数据预处理

在数据准备的过程中，我们将所有能收集到的特征都整合到数据集中。但在建模的时候，并非所有的特征都能用到模型上，因此，在收集的所有特征中筛选出对违约状态影响最大的特征，作为入模特征来开发模型。

主要工作包括数据清洗、缺失值处理、异常值处理，主要是为了将获取的原始数据转化为可用作模型开发的格式化数据。

变量筛选，变量分箱，WOE转换、样本抽样。

变量一般可以分为无序类别变量、有序类别变量、连续变量。

类别变量一般可以dummy化或者直接woe化。如果无序类别变量的类别过多，可以根据逻辑或风险进行一定的归类，比如城市，按逻辑可以分为一线城市、二线城市等，按风险可以分为高风险城市，中风险城市等等。WOE的全称是“Weight of Evidence”，即证据权重。WOE是对原始自变量的一种编码形式。

有序变量是另外一种类别变量，只不过这种变量之间的类别是有一定顺序的，比如学历，通常这种变量可以赋值为一定的数字当做连续变量进行离散，若类别不多，可以人工进行分类。

连续变量通常需要离散，如何离散，水也比较深，比较简单的一般等量、等值离散等，如果用有监督的离散，一般利用y的分布进行分组，通常离散的指标也可以用一些常见的统计值，比如iv，信息增益等。现在基于信息增益的有一种成熟的离散方法，称为MDLP，它最大的优点是给出了一个离散停止点，另外我们也会要求离散的组数不要过多，或者说某组的样本数不能过少，否则容易造成一定的过拟合。

四.探索性数据分析

变量衍生不用多讲，每家面临的数据都不太一样，可以多个人开脑洞想一些维度，尽可能丰富一些，毕竟后面如果你发现模型效果不行的话，再去考虑变量衍生的问题就会变得相当棘手。

数据准备和数据预处理阶段消耗大量的时间，主要的工作包括数据获取、探索性数据分析、缺失值处理、数据校准、数据抽样、数据转换、离散变量降维、连续变量优先分段等工作。

EDA实施包含以下过程：
描述性统计。
评估每个变量值的分布并检验正态假设
极端值的识别和处理
缺失值的计算和处理

描述性统计与变量值分布
描述性统计是使用一些统计量来对变量分析，如：平均值，中位数，总数，标准差等等。
直方图用于绘制联系变量的分布，饼图或条形图用于名义变量和顺序变量。

极端值识别和处理
极端值的识别方法基于不同的应用，有多种选择。这里大概提两个识别方法：
1）每个变量设定一个正常取值的范围，在简单的统计指标基础上进行验证。比如：连续值设定均值+-3倍标准差。名义变量和顺序变量，总体的1%或更多视为正常。
2）用聚类算法将数据分为较小的子集，只包含较少数量观测值的簇，认定为极端值。
一般极端值处理的方法：值替换。
另外，如果极端值超过10%，表明生成数据的机制不止1个。要调查是否需要针对每个群单独开发模型。

缺失值处理
1） .直接剔除
2）.根据样本之间的相似性填补（统计替换）
3）.根据变量之间的相关性填补（拟合）

五.训练样本变量确定

变量初筛

变量初筛主要是根据一些常规指标进行筛选，比如缺失率不能太高，集中度不能太高，说到缺失值，我习惯将其作为一类去看待，如果缺失值过少，可以按风险归到类似风险的其他类别或者离散后的某一组中。

另外也可以根据iv等统计值做筛选，初筛一般条件较松，会放入较多的弱变量。

变量选择

这一步和前面一步的区别在于变量选择的方法不一样，前面的变量初筛主要是单变量指标的筛选，没有考虑变量组合的影响，所以需要用模型的方式来进行变量选择。

逻辑回归里面有一种前向或者后向选择的方式来确定变量是否入模，在python里面可以用RFECV的方法来代替，原理上是一样的。如果你用的lasso，也可以直接进行变量选择。

由于逻辑回归属于线性模型，有共线性的问题，所以你需要看变量之间的相关性，若两个变量相关性太强，可以剔除其中一个。另外需要计算变量的vif，若某变量vif过高，需确定具体原因，剔除某些变量，直到各变量的vif值趋于正常。

六.模型开发

特征和样本标签准备好后，评分卡建模的过程则比较自然。虽然深度学习等技术在互联网领域已大行其道，在信用评分卡建模中，逻辑回归或GBDT等仍然是目前主流的建模算法。

一方面是金融领域对特征的可解释性要求会更高，通过LR或GBDT建模，比较容易直观得到每个特征在模型结果中的权重，并根据业务经验解释权重系数的合理性。另一方面，实际评分卡建模中，一般入模特征维度并不高。在低维度建模中，LR和GBDT已经可以取得比较可观的效果。

七、模型效果评价

（常见几种评估方法，ROC、KS，PSI等。）

模型建立后，需要对模型的预测能力、稳定性进行评估。信用评分模型常用的评估指标为KS、AUC等。考虑到金融业务反馈周期长的特点，除了划分训练集、测试集外，通常会预留一段训练样本时间段之外的数据集，作为OOT（跨时间）集合，以测量模型在时间上的稳定性。

另外还需要建立一个根据样本预测概率排序的分组，一般分为20组或其他，观察这20组的平均风险倍数的走势，然后需要将建模时剔掉的中间样本加入，同样分为20组，这两个风险分组可以作为后续策略制定的依据。比如拒掉最后两组，那么策略人员可能关心会拒掉多少比例，拒掉的坏样本占总体坏样本的比例是多少等等。

在模型有效的前提下，需要用外推样本对模型进行稳定性PSI的评估，外推样本尽可能选择近期的样本，选取样本的规则应该与模型一致，如模型选择的是过件的样本，那么你外推样本肯定也需要是过件的。同样外推样本的变量衍生、处理等过程与建模样本一样，首先计算各个变量的psi，看其psi的大小是不是在正常范围，对于那些psi较大的变量，需要分析其不一致的原因，若由于一些外部因素造成的，可能需要重新变量选择。看完变量，就可以对外推样本算出一个概率分，同样进行分组，分组的切点用的是上文分组的切点，计算psi，看其分组与上面的分组的差别，若在可接受的范围，则模型稳定效果良好

PSI

模型稳定性

包括评分卡得分分布的PSI(Population Stability Index), 评分卡所有涉及变量的PSI.
模型分数分布稳定性：监测模型的打分结果的分布是否有变化，主要将评分卡上线后的样本RealData与建模时的样本Train_Data比较。使用的统计指标为PSI(Population Stability Index).使用的指标是PSI.

变量稳定性

监测模型的输入变量的分布是否有变化，主要将评分卡上线后的样本RealData与建模时的样本Train_Data比较。使用的指标也是PSI.

PSI 计算步骤：
假设我们要比较样本A与样本B中某一变量Y的分布，首先按照同一标准将Y分为几个区间（通常分为10段），计算样本A和样本B中每个区间的占比。在每个区间段上，将两个样本的各自占比相除再取对数，然后乘以各自占比之差，最后将各个区间段的计算值相加，得到最终PSI.

PSI<0.1 样本分布有微小变化
PSI 0.1~0.2 样本分布有变化
PSI>0.2 样本分布有显著变化

计算完建模变量的PSI值，需要重点关注PSI>0.2的变量，说明这几项的分布较建模时已经发生比较显著的变化，需要考虑是否是客户质量变化引起的PSI变动。

关于监测频率，对于一般金融产品，以每月一次的监测频率进行监测；对于催收评分卡或某些特殊需求的金融产品，需每周做一次监测。监测结果需定时上传，在监测指标明显波动的情况下需考虑更新或重建评分卡。

KS

KS曲线是一种表示评分卡有效性的可视化工具，基于经验累积分布函数(ECDF)画出好客户和坏客户在分数区间上的累积分布。

KS统计量就是两条曲线垂直距离绝对值最大的距离，所以KS取值范围为[0,1]。

上图中40分处KS曲线绝对值距离达到最大（72%-36%） KS=Max{|retain_bad_pct - retain_good_pct|}

我认为对于评分模型的KS取值应有如下要求：

KS<0.2 模型的区分能力不高，价值不大；
0.2<=KS<0.4 一般金融机构开发的评分模型KS大部分都集中在这个区间内，行为评分模型的KS会更高一点，相对于KS<0.2的评分模型，此时的评分模型已经具备一定的区分能力，模型具有一定的使用价值，此时可以结合其他指标继续观察调优模型；
0.4<=KS<=0.7 模型区分能力比较好，模型有应用价值；
KS>0.7 模型好的难以令人置信，可能在变量中加入了业务目标衍生指标，需要对模型特征工程进行排查。

KS统计量简单易懂，实际上可能又过于简单。KS距离最大处的分数可能与实际应用中切分点没有直接关联，尤其是当分数离当前最大KS对应分数（比如上图40）很远的时候，KS指标的重要性就越发不明显。

由于KS是两条曲线垂直距离绝对值最大的距离，因此使用KS时也要注意，当评估一个评分模型随时间的变化时，除了要保证好快定义、结果期相同，还要确保相同的分数切分点、申请政策规则的一致或者最基本的相似，这样使用KS指标的评估才有科学依据。

八、生成评分卡与模型上线

上线流程和方法都不太一样，但需要尽可能规避操作性的风险，保持变量处理等逻辑的正确。

九、模型监控

模型监控与模型效果评测一样，也是从两个方面去监控，一是有效性，主要看过件样本在后续的逾期表现，这种逾期不需要和建模样本那么严格，可以放松一些。二是稳定性，同样是变量稳定性和模型稳定性，评测的方式与模型效果评价部分类似，同样不多说

把样本按分数由低到高排序，Ｘ轴是总样本累积比例，Ｙ是累积好，坏样本分别占总的好，坏样本的比例。两条曲线在Ｙ轴方向上的相差最大值即KS。KS越大说明模型的区分能力越好。

Bad k和Good k分别表示为分数累积到第ｋ个分位点的坏样本个数和好样本个数，KS计算公式：

PSI( Population Stablility Index)

衡量分数稳定性的指标

按分数对人群进行分组，令Ｒi是现在样本中第ｉ组占总样本的百分比，Bi是一段时间后第ｉ个分组占总样本的百分比。PSI取值越小说明分数的分布随时间变化越小。

十、用信用评分卡需要注意的问题

1、开展贷款业务的历史要长。

评分卡的发展必须以历史数据为依据，如果公司开展小贷业务的历史太短，数据不充分，则不具备开发评分卡的条件。

2、发展信用评分卡需要大量的数据，而且数据的质量要好。

如果数据很少，不具有代表性或数据质量很差，有很多错误，那么基于该数据的评分卡就不会准确，那么申请评分卡的发展就会受到制约。

3、数据的保存要完整

小贷公司必须把历史上各个时期申请贷款的客户申请表信息、当时的信用报告记录等数据保存起来，不仅所有被批准的客户的数据要保存，被拒绝的申请者数据也应该保存，以进行模型的表现推测。而且，保存的数据不仅要足以提炼出各种预测变量，还要能够辨别其表现（好、坏等）。

4、信用评分卡只是提供了决策依据，不是决策本身。

信用评分卡并不能告诉审批人员某个客户一定是好的或坏的，它只是告诉我们一定的概率，因此，对于有些客户的申请审批决定就必须综合信用报告等其它信息作出判断。

5、一张申请评分卡很难满足整个人群，需要针对不同人群建立单独的评分卡。

由于爱投在外地其他省份还有好几家分公司，存在着较大的地域差别，各地区经济发展也存在着较大差别，客户消费习惯有较大差异，如果使用一张申请评分卡就会造成信用评分的不真实。

6、时间越久，信用评分卡的有效性会降低，因为经济环境、市场状况和申请者、借款人的构成、业务的来源渠道在不断变化，使得样本人群的特质和属性发生改变，特别是在经济高速发展的阶段（或是股市大牛市阶段），人群的生活方式、消费习惯、经济状况等变化很快，申请评分模型在应用一段时间后通常会与初期模型产生偏移，所以需要适当重新调整，必要时还要重新开发，以保证信用评分卡的有效性。

参考：

基于Python的信用评分卡模型分析（一）

基于Python的信用评分卡模型分析（二）

https://zhuanlan.zhihu.com/p/29700020
https://zhuanlan.zhihu.com/p/49818814
https://blog.csdn.net/q337100/article/details/80693548
https://www.2cto.com/kf/201807/763268.html
评分卡上线后如何进行评分卡的监测

[机器学习] 信用评分卡中的应用 | 干货相关推荐

woe分析_【详解】银行信用评分卡中的WOE在干什么？
WOE & IV woe全称叫Weight of Evidence,常用在风险评估.授信评分卡等领域. IV全称是Information value,可通过woe加权求和得到,衡量自变量对应变 ...
2023mathorcupA题量子计算机在信用评分卡组合优化中的应用思路
2023mathorcup A题量子计算机在信用评分卡组合优化中的应用思路<gzh数模孵化园>出品先说说这题难在哪,主要在于计算,计算,还是计算,优化算法的计算,三道题都是考察这个,而 ...
【2023 年第十三届 MathorCup 高校数学建模挑战赛】A 题量子计算机在信用评分卡组合优化中的应用 42页论文及代码
相关信息 (1)建模思路 [2023 年第十三届 MathorCup 高校数学建模挑战赛]A 题量子计算机在信用评分卡组合优化中的应用详细建模过程解析及代码实现 [2023 年第十三届 Matho ...
2023年MathorCup 高校数学建模挑战赛-A 题量子计算机在信用评分卡组合优化中的应用-思路详解（模型代码答案）
一.题目简析运筹优化类题目,不同于目标规划,该题限制了必须使用量子退火算法QUBO来进行建模与求解.本身题目并不难,但是该模型较生僻,给出的参考文献需要耗费大量时间去钻研.建议擅长运筹类题目且建模能 ...
【2023 年第十三届 MathorCup 高校数学建模挑战赛】A 题量子计算机在信用评分卡组合优化中的应用详细建模过程解析及代码实现
相关信息 (1)建模思路 [2023 年第十三届 MathorCup 高校数学建模挑战赛]A 题量子计算机在信用评分卡组合优化中的应用详细建模过程解析及代码实现 [2023 年第十三届 Matho ...
r k-means 分类结果_R语言信用评分卡：数据分箱（binning）
作者:黄天元,复旦大学博士在读,热爱数据科学与R,热衷推广R在工业界与学术界的应用.邮箱:huang.tian-yuan@qq.com.欢迎合作交流 library(knitr) opts_chunk ...
信用评分卡知道不？就是芝麻分那种东西，自己用机器学习来做一个吧
点击上方"AI公园",关注公众号,选择加"星标"或"置顶" 作者:Hongri Jia 编译:ronghuaiyang 前戏对于金融行业的 ...
信用评分卡模型开发中双峰分布原因及解决方案
信用评分卡模型开发中双峰分布原因及解决方案文: 郑旻圻邹钰刘巧莉转自: 数信互融在信用评分卡模型开发过程中,正态性是检验模型信用评分分布是否有效的一个重要指标.正常情况下,标准的正态分 ...
2023年第十三届MathorCup高校数学建模挑战赛｜A题｜量子计算机在信用评分卡组合优化中的应用
目录题目详情最终收入 = 贷款利息收入 - 坏账损失赛题说明 1:流程简化及示例赛题说明 2:QUBO 模型简介赛题说明 3:赛题数据问题题目详情在银行信用卡或相关的贷款等业务中,对 ...

[机器学习] 信用评分卡中的应用 | 干货

背景介绍与评分卡模型的基本概念

坏样本的定义

M0,M1,M2的定义

什么是评分卡

观察期与表现期

典型风控体系

一确定预测目的

二.数据样本获取

确定违约日期时长、观察窗口期设置

三.数据预处理

四.探索性数据分析

五.训练样本变量确定

六.模型开发

七、模型效果评价

PSI

KS

八、生成评分卡与模型上线

九、模型监控

十、用信用评分卡需要注意的问题

[机器学习] 信用评分卡中的应用 | 干货相关推荐

最新文章

热门文章

[机器学习] 信用评分卡中的应用 | 干货

背景介绍与评分卡模型的基本概念

坏样本的定义

M0,M1,M2的定义

什么是评分卡

观察期与表现期

典型风控体系

一 确定预测目的

二.数据样本获取

确定违约日期时长、观察窗口期设置

三.数据预处理

四.探索性数据分析

五.训练样本变量确定

六.模型开发

七、模型效果评价

PSI

KS

八、生成评分卡与模型上线

九、模型监控

十、用信用评分卡需要注意的问题

[机器学习] 信用评分卡中的应用 | 干货相关推荐

最新文章

热门文章

一确定预测目的