前言
在番茄知识星球的往期文章,关于“信贷风控数据分析圈100个为什么”的话题,曾发布过两篇经验文章,分别是“上篇-风控体系(26个问答)”、“中篇-数据建模(30个问答)”,作为一类包含三篇文稿的系列文章,“下篇-数据分析”终于和大家见面了,我们迟迟未发也是希望能够攒足更有实际场景意义的问答,给各位小伙伴再分享一次知识经验小餐。

具体链接如下:
上篇:风控体系问答
中篇:中篇-数据建模问答
本篇是会有20个与风控数据分析密切联系的经典问答,希望可以帮助大家巩固常见的知识要点,同时在工作任务中学以致用,从而拓宽数据分析的理解思路,并提高数据分析的处理能力。
详细内容,如下:
01 为什么针对分类变量进行编码经常采用one-hot而不用dummy?
答:虽然独热编码(one-hot)比虚拟变量(dummy)多生成了1个变量,看似有特征冗余的缺点,但对数据处理任务的效率影响并不大;one-hot编码很明显的一个优点是可以很直观的了解到所有的类别情况,而dummy编码针对未出现的类别需要推论判断。此外,在模型训练过程中,我们往往采用正则化来约束参数,从而防止模型的过拟合,regularization能够处理多余的自由度,这样有效解决了one-hot编码后多类别情况带来的影响。

02 为什么通过统计指标处理特征缺失值时,针对连续型字段经常采用平均值、中位数来填充,而不采用最大值、最小值、众数?
答:采用平均值、中位数可以在一定程度上保证数据的平衡,很多情形下可以维持原有数据的分布形态,若采用最大值、最小值等方式填充,很可能导致处理后的数据分布趋势发生变化,尤其是在缺失值数量较多的情况下,直接导致出现偏峰分布的现象,同时填充后的数据也不符合实际业务的客观理解。当然,在某些特定场景下采用最大值、最小值等填充也是完全合理的,但一般情况下针对连续型特征,采用平均值、中位数相对更合适些。

03 为什么在特征缺失值与异常值处理过程,往往异常值处理在前?
答:如果缺失值处理在前,若通过常用的统计指标(最大值、最小值、平均值等)来填充,会将异常值数据考虑在内,这相当于将噪音数据成分植入到缺失单元,在一定程度上将异常值成分扩散,直接影响数据的合理分布。如果异常值处理在前,可以先将噪音数据影响的排除,然后采用合适的缺失值填充方法处理,可以较好保证特征数据分布的原有形态,对后续模型训练的影响也明显更小。

04 为什么离散型数值特征在异常值处理不采用箱线图方法来实现?
答:从箱线图的原理逻辑来讲,离散数值型特征是完全支持通过箱线图来识别异常值的,而且也具有一定的解释意义,但相对连续型特征的箱线图处理,离散数值型特征处理过程的合理性有明显欠缺。例如,某离散型特征的取值分布为1,2,3,4,10,若采用箱线图来判断,则10会认为异常值,若此特征的标签含义是电商会员卡等级,10是很有意义的,作为异常值处理是不合理的。因此,离散数值型特征往往通过取值占比或人为经验来判断异常值。

05 为什么在数据建模前的特征探索分析很有必要?
答:样本数据探索的主要目的,是为了给后续的数据清洗与特征工程等环节提供信息参考。其中,针对数据清洗方面,我们可以根据数据的统计分析,了解到样本特征的分布类型(连续型、离散型)、取值类型(varchar、int、float、date)、缺失值情况、异常值情况等,可以进一步决定数据清洗的具体方法,例如对于连续型与离散型特征的缺失值处理,选取的处理逻辑是有很大区别的,连续型采用平均值,而离散型采用众数等。针对特征工程方面,由于已知特征字段的不同取值类型,在特征编码、特征标准化、特征相关性等处理方法的选择上也有很大差异。因此,在数据分析任务中,导入数据后的样本探索分析,对于我们熟悉样本特征情况与把握后续处理环节是很有帮助的。

06 为什么特征衍生时字段维度不要太多?
答:特征衍生是数据建模过程中经常采用的一项特征工程,尤其是针对特征变量池较小的情况,但是对原始特征进行衍生的过程中,不能一味追寻加工特征的数量,务必要考虑特征的业务含义与应用价值,在银行等传统金融机构更需要注意这个要点。同时,根据原始特征的不断衍生,例如通过统计学的差分、占比等维度,理论上可以加工出无穷的字段,但新字段之间的相关性是很强的,在后续特征筛选的环节会很大概率的删除,这对工作效率来讲显然是没有必要的,即使不进行特征相关性筛选,在模型拟合过程中会直接导致模型的共线性,而这也并不是我们希望的结果。因此,在特征衍生环节,要客观分析把握一定的衍生维度与方法是最重要的。

07 为什么特征变量之间的相关性分析很有必要?
答:特征变量的相关性分析在数据测试、数据建模等场景中是非常重要的,对于三方数据测试,我们可以根据特征的相关性分析,得到相关字段联系的量化指标,从而为字段选择与特征引入提供很直观的参考价值;对于数据建模,特征的相关性分析已经成为一种标配,根据字段之间的相关性系数大小,可以筛选保留信息度较大的字段,不仅可以较大程度减弱模型拟合的共线性,而且可以提高模型的精准度与区分度。

08 为什么分类有序数值型特征的相关性分析不采用pearson系数?
答:特征相关性系数pearson虽然可以很方便的量化数值型特征的相关程度,但是不会考虑数值型特征的秩相关,对于分类有序数值型特征显然更在意潜在的有序性,因此针对分类有序数值型特征,我们经常可以采用spearman系数来量化分析。此外根据分析对象的类型不同,还有t检验、方差检验、卡方检验等方法来选择合适的策略。

09 为什么特征分箱后不采用分箱序号的数据,而是进一步转为woe数据?
答:特征分箱后会对每个特征的每个区间赋予一个分箱标签,例如某特征的分箱数量为10,则此特征分箱后的数据可以是0~9的序号标签,如果采用这样的分箱数据去建模,显然是不太合理的,最主要并不是将原始数据进行调整了,而是生成的分箱标签数据很大程度上更换了原特征数据的真实分布与权重关系。但是,将特征分箱后的数据转为woe,可以理解为是一种标准化的结果,最好的优点是保证了特征数据之间的权重分布,将其作为模型训练的输入数据,不仅有效降低了模型的复杂度,而且综合提升了模型的拟合效果。

10 为什么有的评分卡加工逻辑并不需要特征woe数据转换?
答:我们经常接触的逻辑回归评分卡模型,最后在生成评分卡的过程中,需要特征的woe数据进行转换,这也是我们比较熟悉的标准评分卡。其实,在实际场景中,还有一种比较简单的概率评分卡,原理逻辑相对简单,但也有很好的评价效果。例如,采用逻辑回归训练得到一个二分类模型,根据模型预测得到的概率值,可以自定义评分区间线性的将概率转换为分数,例如概率值结果分布为[0.1,0.9],则可以约束评分区间为[300,600],假设概率的业务含义是预测坏用户,则概率值0.1对应分数600,概率值0.9对应分数300,概率值每增加0.01,分数对应降低(600-300)/80=3.75。假设现有某样本的预测概率为0.46,则对应分数为600-3.75*36=465。

11 为什么对特征性能评估时要考虑特征的稳定性?
12 为什么特征相关性分析时最好同步特征与目标的关系?
13 为什么特征的IV值并不是越大越好?
14 为什么数据清洗时需需要对主键的重复值分析?
15 为什么特征缺失率较大并不代表特征的应用意义不大?
16 为什么在模型性能监测过程,特征稳定性指标PSI大于0.1并不需要直接调整?
17 为什么针对样本数据不均衡情况,分层抽样的方法效果更好?
18 为什么树模型的特征重要性指标是特征筛选的一个好方法?
19 为什么二分类模型也可以实现多分类场景?
20 为什么树模型经常需要交叉验证与网格搜索来调优模型?
以上剩余的10个问题(问题11~20),也是经常出现在风控工作与面试中的高频问题,本次我们在知识星球中为各位会员同学准备了此份内容,可移步至知识星球平台查看:

除了本文相关的问答系列,关于风控体系与建模篇文章的内容也一样可在星球上查阅:

                                                       【星球:风控建模篇】


                                                             【星球:风控体系篇】

~原创文章

助力篇|常见金融风控数据分析内容汇总,助你面试道路畅通无阻相关推荐

  1. 零基础入门金融风控数据分析

    零基础入门金融风控之贷款违约 目的: 1.EDA价值主要在于熟悉了解整个数据集的基本情况(缺失值,异常值),对数据集进行验证是否可以进行接下来的机器学习或者深度学习建模. 2.了解变量间的相互关系.变 ...

  2. 吊打面试官系列之:常见测试开发面试题汇总,在面试的路上,总要先下手为强。

    测试开发面试题汇总 1.引言 2.热身题 3.理论基础 4.管理技能 5.服务端 7.移动APP 7.1 理论 7.2 实践 8.自动化测试 9.工具使用 10.算法 11.SQL 12.Linux ...

  3. python金融风控评分卡模型和数据分析

    python金融风控评分卡模型和数据分析微专业课(博主录制):http://dwz.date/b9vv 作者Toby:持牌照消费金融模型专家,和中科院,中科大教授保持长期项目合作:和同盾,聚信立等外部 ...

  4. 【数据分析与挖掘实战】金融风控之贷款违约预测详解2(有代码和数据集)

    本文接着上一篇博客,如果您未阅读上篇博客,请点击[数据分析与挖掘实战]金融风控之贷款违约预测详解1(有代码和数据集) 七.建模和调参 7.1模型相关原理介绍 由于相关算法原理篇幅较长,本文推荐了一些博 ...

  5. 【算法竞赛学习】金融风控之贷款违约预测-数据分析

    Task2 数据分析 此部分为零基础入门金融风控的 Task2 数据分析部分,带你来了解数据,熟悉数据,为后续的特征工程做准备,欢迎大家后续多多交流. 赛题:零基础入门数据挖掘 - 零基础入门金融风控 ...

  6. 金融风控 Task02 数据分析

    [数据挖掘]金融风控 Task02 数据分析 探索性数据分析(EDA)概述 1 探索性数据分析概念 1.2 探索性数据分析目的 1.3 探索性数据分析(EDA)与传统统计分析(Classical An ...

  7. 【数据挖掘】金融风控 Task02 数据分析

    [数据挖掘]金融风控 Task02 数据分析 1. 探索性数据分析(EDA)概述 1. 1 探索性数据分析概念 1.2 探索性数据分析目的 1.3 探索性数据分析(EDA)与传统统计分析(Classi ...

  8. 金融风控场景下:数据分析、模型与策略。

    来源:DataFunk 导读:众所周知,信息时代下的数据就是能源,就是生产力.但是面对海量.纷繁的数据,特别是在金融领域,如何充分地利用数据是核心问题.本次分享主要想和大家一起探讨下,在金融风控场景下 ...

  9. python金融风控评分卡模型和数据分析(加强版)-收藏

    信用评分卡 信用评分是指根据银行客户的各种历史信用资料,利用一定的信用评分模型,得到不同等级的信用分数,根据客户的信用分数,授信者可以通过分析客户按时还款的可能性,据此决定是否给予授信以及授信的额度和 ...

最新文章

  1. 清华伯克利造出机械小强:承重200万倍踩不死,跑得和真蟑螂一样快
  2. [Luogu P2014]选课 (树形DP)
  3. 20145209 实验三 《敏捷开发与XP实践》 实验报告
  4. Jmeter(二)Jmeter目录介绍
  5. R语言 plot()函数 基础用法
  6. linux手动生成dump文件权限不足_linux下生成dump文件方法及设置
  7. oracle中季末最后一天,oracle有关时间计算,得到季度第一天、最后一天
  8. 【第五课】LNMP环境的入门
  9. R学习笔记(4): 使用外部数据
  10. linux 无法启动vnc_ECS 云服务器 VNC篇
  11. 3.JAVA内存溢出
  12. R语言机器学习:xgboost的使用及其模型解释
  13. 拼多多算法工程师笔试题之分配巧克力
  14. 国产CAM究竟水平如何?看完测试我震惊了
  15. esp8266教程:文件系统之spiffs
  16. Google 最新版 Chrome 崩溃
  17. 苹果手机设置信任软件
  18. 走进波分 -- 03.光纤传输系统关键参数
  19. 协议篇————3、DUP协议详解
  20. AdSense 使用教程: 通过让 Google 在您的网站上投放广告,帮助您从中获利

热门文章

  1. 今日头条推出“悟空问答” 做智能问答分发先驱者
  2. Hbuilder X APP开发 iPhoneX以上型号屏幕适应问题
  3. 微信域名防封技术,微信域名总是被屏蔽要怎么解决
  4. 前端入门教程(四)head内常用标签与body内常用标签
  5. 抠图怎么抠?这几种抠图方法分享给大家
  6. 力扣算法题-19.秋叶收藏集 C语言实现
  7. Oracle中CONCAT详解
  8. 【CGAL_网格处理】坐标变换
  9. 需要细读的好文章(搜集)
  10. 巨大的市场潜力,细数2019国内云计算新排名