由于幸存者偏差，导致强变量在后续迭代中逐渐削弱甚至相反怎么办|文末有福利

解析：

幸存者偏差（SurvivorshipBias）与样本不均衡（Imbalance Learning）问题都是由于风控模型的拒绝属性导致的。但表现形式略有不同。幸存者偏差是指，每次模型迭代时，使用的样本都是被前一个模型筛选过的，从而导致的样本空间不完备。

其实主要是添加负样本的问题。简单一些可以直接用增量学习，效果更好的是迁移学习和半监督学习。比如用GAN网络产生新样本，对齐现有样本和旧的历史样本的分布，然后进行建模。

文末免费送电子书：七月在线干货组最新升级的《名企AI面试100题》免费送！

解析2

1、什么是幸存者偏差效应？

幸存者偏差（Survivorship bias），另译为“生存者偏差”或“存活者偏差”，是一种常见的逻辑谬误，意思是只能看到经过某种筛选而产生的结果，而没有意识到筛选的过程，因此忽略了被筛选掉的关键信息。

通俗地说，当我们取得资讯的渠道仅来自于幸存者时（因为死人不会说话），资讯可能与实际情况存在一定的偏差。

这一规律也适用于金融和商业领域。存活下来的企业往往被视为“传奇”，它们的做法被争相效仿，而其实有些企业也许只是因为偶然原因而幸存了下来。

幸存者偏差在日常生活也中十分常见，比如：

很多人得出“读书无用”的结论，是因为看到有些人“没有好好上学却仍然当老板、赚大钱”，却忽略了非常多的因为没有好好上学而默默无闻，甚至失魂落魄的人；

又比如你可能听到朋友推荐某个“偏方”说他的亲戚用这个偏方治好了重疾，但实际上这个偏方到底治好了多少比例的人，有多少人用了这个偏方没有痊愈却没有人知道……

福利↓↓福利↓↓福利↓↓

价值千元【金融风控实战特训】限时0.01元秒杀！！

课程链接：https://www.julyedu.com/course/getDetail/270

2、金融风控中的幸存者偏差效应

广义的幸存者偏差用统计学的专业术语来解释是——“选择偏倚”，即我们在进行统计的时候忽略了样本的随机性和全面性，用局部样本代替了总体随机样本，从而对总体的描述出现偏倚。

在金融信贷场景中，放款机构会通过模型评分筛选用户，评分较好的用户可以获得放款，评分较差的用户直接被拒绝，机构只能获得放款用户样本的好坏标签，对于大量拒绝用户的还款情况无法获得。

随着时间的推移，机构手中的训练样本都是“评分较好”的通过用户，而没有“评分较差”的拒绝用户，由此训练的模型在“评分较好”用户中表现越来越好，在“评分较差”用户中却无法得到任何验证。

但是，金融风控模型真实面对的客群却包括了“评分较差”的用户，模型在“评分较差”用户中无法得到验证，导致训练的模型越来越偏离实际情况，甚至通过了大量应该被拒绝的坏用户，致使大量坏账出现，直接带来巨大经济损失。

用下图示意的话，在客户全集为A的情况下，放款机构仅能通过分析子集幸存者A1的还款与行为数据寻找区分客户好坏的标签，但却不得不把这种标签推广应用在包括子集沉默者A2在内的全集上，而从A1取得的好坏标签在A2中可能并不成立。

因此，当只能获得优质放款用户的好坏标签的情况下，如何保证建模对所有放款用户和拒绝用户都有良好的排序能力，是金融风控模型需要解决的重要问题。

3、使用“拒绝推断”解决幸存者偏差

拒绝推断（Reject Inference），即推断建模总体中被拒绝的客户样本可能出现的结果。拒绝推断是建立申请评分模型时的特有问题。如果我们能够顺利运用某些方法成功地推断出被拒绝的客户的信用表现（即是好客户还是坏客户），那么我们就得到一个较完整的建模总体和建模样本。

拒绝推断的方法

接受部分坏客户

解决样本选择偏差的最直接有效的方法就是随机抽取未被授信的客户，对其进行授信，观察未来表现。对于这部分客户加以一定的权重与那些原本被授信的客户合起来作为模型开发的样本。

但是这种方法在现实中很难被风险管理部门所接受，因为未被授信的客户一般被认为存在拖欠行为的可能性较大，对这部分客户进行授信，风险也往往较高，易带来损失。

两阶段加权的方法

（核心基于诺贝尔奖获得者Heckman的两阶段模型）

这里先解释下Heckman的两阶段模型。

Heckman 在1974年发表的《Shadow Price, Market Wages and Labor Supply》（影子价格、市场工资与劳动供给）中研究了工资与教育程度的关系。很显然，研究者只可能从有工作的人们那儿获得有关工资的数据。根据这些数据，研究者可以绘制成下图这样的分布图。图1中W表示工资，X表示受教育程度，可获得工资数据是图中的实心点。这样，我们研究所得到的两者的关系就如虚线所示。

但是，这个关系是有偏差的。因为有不小比例的人没有参加工作，对这些人，我们可以了解他的教育程度，却不知道他一小时可以挣多少钱。一般地，人们是否参加工作取决于实际可得的工资与意愿工资，当工资低于意愿工资时，人们就会选择不工作。把不工作这部分人也搬到我们的图上，其分布就是图中的空心点。这时，工资与教育程度的关系就是图中的实线。可以发现，如果只拿实心点研究，得出的结论实际上低估了受教育程度对工资的影响。

在Heckman 1979年发表的另一篇论文《Sample selection bias as a specification error》（样本选择偏差导致的设定误差）中给出了这一问题的具体解决方法。首先，算出不同教育水平的人，参加工作的概率各有多大，这可以通过经验数据模型得到。然后，删去不工作之人的样本，将余留的样本点依其工作概率的不同，垂直往下位移。工作概率愈小，向下位移愈大；工作概率愈大，向下位移愈小。工作概率百分之百的，不作位移。(下图，实心点下移到由空心点标示的新位置。)

然后，对位移后的样本点，求出其回归线。理论上可以证明，这条回归线，与第一个图中标出的真实关系线，应当是一致的(参见图3)。

回到我们的问题当中，假设被拒绝的申请者行为模式与被授信的申请者行为模式相似，其基本思想是加权被授信的申请者，使得被授信的申请者能够代表被拒绝的申请者的行为。该方法分为两个阶段。

第一阶段，建立一个拒绝/批准模型，用来预测一个申请者被拒绝/批准的概率。然后假设拒绝/批准概率相近的客户具有近似的风险特征,因此考虑将拒绝/批准概率分成若干段，每段的好坏账户能代表该段内的被拒客户的特征，因此利用这些好坏账户可以推测被拒帐户中的好坏。
第二阶段，为每一个样本计算出用于修正样本选择偏差的权重修正因子，从而建立有权重修正因子的违约预测模型。

具体操作如下：

对所有样本账户先构建一个粗略的拒绝/批准模型，其中批准账户包括“好账户”、“坏账户”，据此得到对所有账户的预测的拒绝概率。该拒绝/批准模型仅用于加权调整，采用的变量可以放宽。
将预测的拒绝概率分成0—0.1,
0.1—0.2,……，0.9—1.0共10段，计算每段的好坏账户、拒绝账户的个数，计算每段的权重修正因子：(好账户数+坏账户数+被拒账户数)/(好账户数+坏账户数)。
将每段的帐户的原有权重和该段的权重修正因子相乘，得到新的权重变量，这个新的权重变量用于模型拟合与调整。

下面进行模型的初步拟合——拒绝/批准模型。

拒绝/批准模型的目标变量定义为是否批准申请的二元变量，对开发集中的所有记录采用逐步Logistic 回归方法，根据回归的结果，对所有开发集帐户进行评估，按照评分值大小排序分成10组，组内每个帐户的权重设为该组所有帐户数与组内所有被授信申请者数的比值，获得加权权重。

利用权重修正因子，对所有被授信申请者采用有加权的逐步回归方法，经过显著性检验、方向性检验、共线性检验、稳定性检验等步骤，获得最终的评分模型。使用拒绝推断模型后，测试集的模型性能从之前的KS=32.67%提高到了KS=35.89%。

4、总结

在信贷风险管理中，作为信用评分的一类，申请评分具有其特殊性，容易出现幸存者偏差效应。

通过拒绝推断的方法，可以提高风控模型性能。但是如果采用接受部分坏客户的方式会给机构带来潜在的损失，成本高，在操作上也存在难度；而两阶段加权的应用基于统计假设，实践也证明了其修正样本选择偏差的效果，可以有效地提高申请评分模型的预测能力。

如果你已经拥有一定基础，要挑战高薪或提升自己，可以看下七月在线【金融AI高级实训营第四期】课程。

该课程从开设第一期课程开始，持续不断的提升课程质量(包含内容质量、教学质量、服务质量、结果质量：就业转型提升)，现已迭代至第四期。

市面上的金融公司分类有：拥有独立信贷业务的互联网金融公司、金融数据商、外包导向的金融科技公司、银行、金融性质的国企等等。随着互金行业的逐步成熟，门槛越来越高。

本高级实训营除了继续沿用七月在线原有金融就业前三期的优势内容：

有大量细分场景下的已落地建模方案，以及由大厂专家手把手带你搭建属于自己的、可重复利用的、自动化工业化机器学习框架之外；
全面优化大纲，新增图算法并结合深度学习、NLP领域相关内容处理金融方向业务等；
标准化项目阶段的完整流程：从特征工程与关键技术、到模型调优、模型评估等

更于12月上旬全面升级，融汇金信特新增如下两个新项目：

企业财务预测和风险分析
新闻事件的多空识别和预警

且本期实训营拥有超豪华讲师团队，讲师大多数为国内外知名互联网公司技术骨干或者顶尖院校的专业大牛，学员将在这些顶级讲师的手把手指导下完成学习。

完成项目后，针对学员入职后工作上遇到的技术方面问题，进行一个月的跟踪服务，为学员稳定就业保驾护航。

限时福利！原价19000元的课程，扫码“免费试听 + 领取面试资料《名企AI面试100题》”。

由于幸存者偏差，导致强变量在后续迭代中逐渐削弱甚至相反怎么办|文末有福利相关推荐

【高并发】解密导致并发问题的第二个幕后黑手——原子性问题（文末有福利）
写在前面大冰:小菜童鞋,昨天讲解的内容复习了吗? 小菜:复习了大冰哥,昨天的内容干货满满啊,感觉自己收获很大. 大冰:那你说说昨天都讲了哪些内容呢? 小菜:昨天主要讲了线程的可见性和可见性问题.可见 ...
scatter的用法随机颜色_PS上最强的颜色神器插件“达芬奇配色”正式发布！文末双十一活动！全年最低价！...
一年前我们悄悄地发布了达芬奇的内测在没有任何宣传的情况下竟然也被大家发现并且购买使用我们团队全员心里是非常有成就感的这次我们花了大半年时间重新对达芬奇进行功能更新升级和优化这一次的达芬奇 ...
幸存者偏差——讨论死在中国游戏圈的一百万种方式
http://www.gameres.com/460460.html 首先,用一个简单的案例向大家介绍一下什么是"幸存者偏差". 二战期间,盟军需要对战斗机进行装甲加厚,以提高生还 ...
高考作文题“幸存者偏差”难哭了？这有份标准答案
高考作文已经出炉,并毫无意料地刷屏了.其中,全国卷2的作文被吐槽得最狠,不仅仅是因为难,而是根本就看!不!懂! 题目是这样的: 二战期间战斗机防护,多数人认为,应该在机身中弹多的地方加强防护.但有一位 ...
分析师入门常见错误幸存者偏差，如何用匹配和加权法规避
公众号后台回复"图书",了解更多号主新书内容作者:数据狗来源:DataGo数据狗在日常功能迭代分析中,一般会直接看使用该功能和未使用该功能的用户在成功指标上的表现,将两组数据 ...
数据分析36计(22)：分析师入门常见错误幸存者偏差，如何用匹配和加权法规避...
在日常功能迭代分析中,一般会直接看使用该功能和未使用该功能的用户在成功指标上的表现,将两组数据求个差异值就得出功能的效果结论.但是有敏锐的分析师会发现,功能大部分情况下有筛选效应,即使用该功能的用户可 ...
其实，这就是「幸存者偏差」
大家好,我是涩郎,一名「知识挖掘师」兼「知识布道师」. 我前几天不是写了一篇文章么?讲的是人在年轻的时候,最核心的能力应该是什么? 我说,是:思辨能力. 考公误区其中举了一个例子: 思辨能力强的人, ...
终于有人把幸存者偏差讲明白了
导读:本文带你了解数据收集的偏差. 作者:徐晟来源:大数据DT(ID:hzdashuju) 数据收集是一项重要的工作,需要投入大量精力和时间,这是因为数据质量直接关乎分析结论的成败.然而,错误的数据 ...
ARC 强变量弱变量
转自:http://blog.csdn.net/mydo/article/details/36473323 乖乖隆地洞,这篇文章内容可是不得了,内存管理哦!首先,这个要是搞不明白,你就等着进程莫名其妙 ...

由于幸存者偏差，导致强变量在后续迭代中逐渐削弱甚至相反怎么办|文末有福利

由于幸存者偏差，导致强变量在后续迭代中逐渐削弱甚至相反怎么办|文末有福利相关推荐

最新文章

热门文章