模型ks_风控建模模型指标篇

根据自己做风控模型（A卡）的经验；汇总风控模型中的重要指标；

其中部分指标加上了个人见解；有不同意见欢迎讨论;

先来看混淆矩阵：

TP: 预测为正实际为正
FN: 预测为负实际为正
FP: 预测为正实际为负
TN: 预测为负实际为负

Accuracy: 准确率 (TP+TN) / (TP+FN+FP+TN) 判断正确的占所有样本的比例

Precision: 精准率 TP/(TP+FP) 判断为真的正例占所有预测为正的比例

Recall: 召回率 TP/(TP+FN) 判断为真的正例占所有真实为正的比例

ROC曲线：

TPR = TP / TP+FN

FPR = FP / FP+TN

以FPR横坐标, TPR为纵坐标；所描绘出的曲线就叫ROC曲线

AUC(重要指标)：ROC曲线下的面积；根据项目的实际情况，训练集一般要在0.8以上，测试集和OOT可以略低一点；

KS(重要指标)：MAX(TPR - FPR) ；反应模型的区分能力，在风控场景下，一般要求KS值不能低于0.35，当然看项目实际情况(数据量, 数据范围, 坏样本占比等因素), 像大银行的话，数据量比较大，而且也能拿到比较全面的数据，包括外部数据，这时候就对KS的要求比较高，可能需要达到0.5左右；再提一下，正常情况下，尽可能的把训练集与OOT的KS值差距控制在0.05以内，这样才能保证模型足够稳定；

PSI(重要指标)：模型的稳定性，一般在我做过的项目中都是要求模型在OOT上的psi小于0.05; 值越小代表模型越稳定；这个其实还是要看项目实际情况，但是psi肯定是要控制在0.1以内；超过0.1就不能用了；

计算方法如下： psi = sum(（实际占比-预期占比）/ln(实际占比/预期占比))

排序性：另外还有模型训练完之后，一般会根据他的违约概率给用户一个评分；然后对这个分数向量进行等频分箱之后，查看模型从低分区间到高分区间坏样本所占坏是否递减：

如图：

用以确定模型排序性；

题外：

OOT（OUT OF TIME）时间外数据，训练风控模型都是需要定表现期，观察期的；使用表现期内的数据进行建模；拿OOT只是为了验证模型是否好坏，以及是否稳定；

关于不用测试集：

之前有跟同事讨论过，建模的时候需要用到训练集、测试集、OOT；那么能不能把测试集去掉，直接使用OOT来进行验证；

结论是不行，原因如下：为了防止训练出来的模型过拟合，我们在训练完之后会用测试集的数据进行验证，然后可以根据在测试集上面的表现，对模型进行优化调参；而OOT只是单纯的验证模型在未来的时间内的表现，如果利用OOT来进行调参的话，那么就会涉及到数据泄露的问题；

训练集测试集划分:

根据小弟的项目经验，发现测试集、训练集二八分训练出来的模型往往比三七分效果要好；