如何做好模型设计环节

1、建模必要性

一个建模项目有无必要立项的核心是，能否提升现有的业务收益，比如提高通过率，降低逾期率。一般，出现以下两种情况，需要考虑是否有必要构建新模型。

（1）模型监控

网贷市场环境变化快，评分卡生命周期短，相比传统信贷模型迭代频率高。在模型上线决策后，需要关注模型的通过率情况，当模型的通过率不稳定。同时发现入模变量发生重大偏移、当前评分与建模评分分布发生变化、模型区分能力变差、变量区分度变差。分析原因后，排除数据传输缺失、大型运营活动、渠道获客的原因，可以认为是客群的变化，此时可考虑模型的迭代。

（2）新的数据维度

在业务的发展过程中，会不断采购或获取客户新的维度的信息。需要对新数据源进行以下维度的分析，来判断是否有必要构建新的模型。

a:数据覆盖量：理论上要求数据的覆盖量至少达到80%。如果数据缺失率高，但是特征区分度很好，可以考虑对此部分用户单独建模。

b:特征区分度：单特征ks最大值需大于15，不低于13.（具体阈值根据实际业务场景确定）

b:特征稳定性：特征psi <0.1

d:特征共线性: 采用变量聚类、相关性分析、vif检验分析特征共线性。

在区分度和稳定性的前提下，考虑共线性。若共线性小，可以考虑建立新模型。若共线性大，可采用变量压缩的方法（如：PCA）,判断信息重叠的程度。若共线性严重（如，压缩后模型的区分度只是比最高单特征提升2-3个点），不考虑建模。

（3）市场环境变化

市场转移、行业变化、产品变化

2、客群细分

（1）为什么要进行客群的划分

a:准确性：每个客群都有其独有的属性，同一数据维度，在不同客群上的效果也不相同，分群建模可以提高模型的预测能力。

b:稳定性：建模的数据按照来源分为两类：一类是自有数据源，比如通讯录、通话详单、日志数据、复贷客户的行为数据。一类是第三方数据源，比如，芝麻分、腾讯分等。第三方的数据会由于某种原因停止或不稳定，这些因素都是不可控的，如果混在一起建模，一旦第三方出现问题，意味着我们整个模型都需要迭代。

（2）如何划分客群

a: 根据业务经验或背景

例如：首贷、复贷分开建模。渠道、非渠道分开建模。

b:强特征

在单特征分析的时，发现某一特征iv>0.5(行业经验值)，强度远高于其他特征，此时需要考虑是否要划分客群建模。

c:数据源

由于不同的数据源，缺失率和稳定性不同，为了减小模型的迭代周期和稳定性，对不同的数据源，建立不同的子模型。

3、模型框架

在确定了是否建模，是否分群建模的问题后，还需要提前考虑，模型要在现有风控框架下，哪个环节使用，如何使用，如何与现有的模型和策略联动。确定这些问题，有助于模型的有效设计。一般来说，当模型是识别极端坏用户，可以放在模型前面的环节使用，与现有模型串联使用。当模型是稳定线性趋势，建议与现在模型并联综合决策。当模型是针对特定客群设计，也可以使用分流的方式进行决策。

4、拒绝推断

在模型设计环节，还需要考虑，是否要做拒绝推断。

（1）为什么要做拒绝推断

a: 公司内部策略的变动或低通过率的历史数据，使得建模的数据客群，不能代表模型上线后的应用客群。此时使用审批通过的数据进行建模可能会造成误判。

b: 利用拒绝推断可以找出被拒绝的好客户，挖掘这些客户。因为如果不使用拒绝推断，模型的迭代始终是在好客户中选择好客户，建模的客群会越缩越小，那些被拒绝掉的好客户，永远都不在模型考虑范围中

c: 提高模型区分度。当风控做的很好，在不增加新数据维度的情况下，模型迭代会越来越难，模型区分度会越来越低。用客户在单特征的表现来说，就是只选择了整个客群的一小段，单特征强度在很大概率上是比总体小。

（2）拒绝推断的适用场景

中低通过率适用，可以配合适当的风控策略，可以挖掘更多的优质客户。特别需要注意的是，拒绝样本要选择哪些拒绝客户，要考虑公司当前的风控策略和模型上线的应用场景。高通过率不适用，因为高通过率说明准入样本已经接近原申请样本了。

5、目标变量的选取

开发信用评分模型的首要目标就是知道来者是好人还是坏人，他未来会不会出现逾期、失联等。所以，如何定义一个借款人的好坏十分讲究，并不是一个人在到期日没有还款，他就不是好人了，毕竟发生逾期的原因总是多方面的，有的仅仅是忘了，这部分总体还是好人，严重一点就是主观上存在坏的目的，借了钱就消失赖账，甚至是身份被骗子盗用。所以，建模过程中，为了训练出一个优质的模型，需要正确地定义好坏样本。