在准备给FAL的读者朋友们讲讲评分模型之前,我其实是不太想写有关评分模型的相关分享。

一是因为我开始创业后,自身更多关注企业管理与创新发展,评分模型技术关注度不再像以前那么紧密;还有另一个原因是,标准评分模型开发技术似乎已经快“烂大街”,一天N个卡的开发好像大家已习以为常,在模型技术中仿佛有了一条“鄙视链”:会LR的鄙视AHP,会ML的鄙视LR,会DL的鄙视ML。

我们运营小伙伴最近跟我反馈,现在推荐去面试的Modeler,自己都觉得不玩转一些高阶算法甚至图谱、联邦学习都感觉自己特别Low。

但又有多少人敢说自己透彻地了解一个算法,哪怕只是大家认为最简单的Logistic Regression。

正巧,最近数据监管风声鹤唳,联邦学习也备受吹捧。

说实话,联邦学习我还真没有详细了解,在这里也不班门弄斧了。

那为什么我还要谈谈自己对评分模型的理解呢。

一是希望以此文为个引子与大家交流学习,让自己别落后太多。另一个是也许我的一些观点想法,能对大家关于模型本身有一些顿悟,如果顿悟错了,就一笑而过即可。

模型算法可以简单点

前两天看到余旭鑫先生写了一篇“模型策略开发再入门”的文章,里面有一段我记忆还蛮深刻:“有一个论坛交流,想请我去讲一下模型以及模型的开发,并且把讲演稿提前发给会务。没两天市场公关部就向我转达了会务的回馈,说这个内容过时了,太浅了,要我讲些更加有深度的,最好是最前沿的机器学习方法。我当时脑子里一下子出现了很多问号和感叹号,但还是很平静地让市场公关部向会务转述说:“如果只是想听最先进的最前沿的机器学习技术的话,那我安排我部门的分析咨询总监或经理去讲就可以了。”

在方面,我与余旭鑫先生蛮有共鸣。

我在与国外(如美国)的风控同行管理者交流或听讲座的时候,大家都认为评分模型甚至风控模型应该简单有效即为完美,既能很好的与策略规则匹配控制住风险,同时机器并发效能也能支撑,满足高透明、高稳定、高精准和易优化的模型就是好的模型。

但在与国内风控同行交流的时候,追求算法、模型的复杂程度,衍生特征的N重构建,这些技术极致的思想占据了大部分时间,但对于模型的应用、模型的调优甚至数据质量本身这方面关注较少,更别说评分模型与业务匹配程度、实际效能成本等方面的考量。

国内这样的现象,让我曾经几度都开始怀疑我们的模型算法技术,难道已经位列世界第一?

我曾经还怀疑,但我现在感觉自己真的快信了。

但事实是如此吗?

我最近咨询过一些大型金融机构的风控模型团队,他们线上80%的信贷业务应用的评分模型还是基于逻辑回归算法,更复杂的机器学习模型要么就是闲暇时间拿来测试玩玩,要么就构建一些特征变量(大部分这些变量最终还没办法应用)。

为什么会出现理想与现实这么大的差距?

这与金融业务基因有关。

金融行业本质是保守的,它不需要像互联网一样高歌猛进,它需要在稳定运行的基础上实现利润最大化。

这几年伴随着金融与数字科学的融合创新,大多数正规金融机构在思想上好不容易从传统线下面签的风控模型逐渐转移到线上半自动或全自动的风控模型,试想,对于运行Xgboost、神经网络等完全过程黑箱的评分模型,身居要职的风险管理者能有多放心。即使,现在已经有专业团队开始研究如何将黑箱变灰箱,灰箱变白箱(比如SHAP),但别忘记,目前复杂算法包的开源调用本身也存在不成熟等缺陷。

真正在线上运行各种复杂机器学习模型的机构,要么是金融科技公司(不需要对风险不良兜底负责),要么是技术派的风管团队(技术派的风管团队,说不定人家Marketing做的一流)。

其次,模型技术即然已经这么发达,为什么还没有替代策略规则呢。

在风控架构中,真正能扛住风险的只有规则,而评分模型是对风险不良控制的锦上添花。模型不是刚需的,它是在市场空间不断压缩的过程中,实现利润空间分配和利益最大化的工具。但金融本质决定,利益最大化并不是正规金融机构最需要的,尤其是现在的中国金融环境。

要知道,评分模型在风控中的实际作用主要有两种:一是进行最终风险的兜底,二是进行拒绝豁免,对于风险拒绝,目前现阶段很少实际应用,除非一些特殊公司和特定产品。

只要能实现这两个作用之一的模型,就已经是成功的模型。

再复杂的算法,在没有数据或者数据质量不佳的前提下,都是“巧妇难为无米之炊”。

说到数据质量,有多少人在评分模型开发前仔细分析过使用数据的质量。

我想,大部分建模人员分析数据质量的时候,基本是看一看样本好坏灰数量和占比、数据缺失率、0值占比、连续变量取值范围和分位数,离散变量枚举值分布等一些常规操作,然后开始对数据处理一顿操作猛如虎,殊不知这种质量分析漏掉了很多信息。

打个比方,在样本统计的时候,是否有检查坏样本在时间维度上过于集中等问题;在变量分布上,是否有重点观察最值是否有异常情况以及变量分布是否符合预期;在进行数据统计及变量分布分析过程中,是否按照时间切片细化,了解变量在时间上是否有较大的波动存在,如果存在是否有深究原因;在运用指标进行二次构建的时候,是否有怀疑指标本身业务逻辑可能就存在问题。

对数据的洞察和关注,应该要多于算法本身。

讲这么多,就是希望提醒大家,别把简单的事复杂化,哪怕是模型也一样。

搜索:「 金科应用研院」

可以从微信公众号菜单栏点击「在线学习」

更多风控资讯与干货学习资料,都在微信公众号

回复关键字: 「风控量化福利包」➡️领取干货学习资料

原创专栏:谈谈我对评分模型的理解相关推荐

  1. 【模型开发】风控评分模型开发流程

    [博客地址]:https://blog.csdn.net/sunyaowu315 [博客大纲地址]:https://blog.csdn.net/sunyaowu315/article/details/ ...

  2. 风控评分模型全流程的开发及应用

    风控评分模型全流程的开发及应用   信用评分卡的应用场景有申请评分卡(A卡).行为评分卡(B卡).催收评分卡(C卡)和反欺诈评分卡(F卡).   用户申请信用贷款的流程依次是基本信息核查.强规则校验. ...

  3. 评分模型前奏:启发式评分模型开发

    模型是对策略的补充,可以具体量化每一位客户的风险值.信贷评分卡是风控领域应用最广泛的模型,不论是零售信贷.小微信贷还是对公等的众多业务领域,都试着想用评分模型来量化客群的风险. 但想要开发相关的评分模 ...

  4. 评分模型和额度模型的两种不同应用场景

    评分模型是对客群进行量化风控的重要工具,通过评分模型中风险水平的排序,我们可以将客群量化定级(A.B.C-等级).常规上的风险评分模型可以分成申请评分模型.行为评分模型.催收评分模型.反欺诈评分模型. ...

  5. 评分模型的监控报表汇总

    2020-2021年中国的新冠肺炎疫情的爆发给消费行业造成冲击的同时也让消费金融行业感受到切实的压力--短期内疫情对消费金融的影响不仅体现在业务经营层面还体现在风险管理.运营维护等方面. 疫情前后无论 ...

  6. 风控小白入门 | 关于评分模型验证的7大问题回答

    信用评分世界正处于一个困难的环境中,在这种环境中,贷款人被经济衰退迫使以非常保守的方式经营其业务.消费者以类似的方式处理信贷-然而,随着我国经济扶持力度不断加大,消费者已经调整,而许多贷方却没有.更多 ...

  7. 天云大数据_【案例分享】天云大数据最佳实践系列之——信用评分模型

    本文为天云大数据原创 大数据能力特有的性质,使其正在成为大型银行真正的核心竞争力.银行大数据能力表现在多方面,但大数据思维和数据挖掘能力是最关键.也是最重要的.天云大数据自成立以来,一直深耕于金融领域 ...

  8. 贷后催收评分模型中的数据清洗与数据治理细节介绍

    数据清洗是一个非常修炼身心的过程,途中你除了需要把所有的数据整业务合到一张宽表里.而这种宽表中所有的字段,是你理解完业务后,细心整理出来的所有适合建模的数据. 今天我们给大家介绍一下,在风控贷后评分模 ...

  9. 原创:谈谈计算机图像识别技术之身份证号码识别

    原创:谈谈计算机图像识别技术之身份证号码识别 作者:刘常军(2014-1-21)   前两天看到一篇文章,说支付宝钱包的iOS版和Android版已经升至8.0,只要通过摄像头对准银行卡进行扫描,支付 ...

最新文章

  1. ROC曲线与癌症分类
  2. referer 访问控制
  3. 曲线 线性回归_机器学习笔记 线性回归
  4. Filter 字符编码Filter 一
  5. 每小时的数据mysql_荐 mysql查询每小时数据和上小时数据的差值
  6. html文字列表,文字列表模板
  7. 清除故障,Windows2003更加亲切
  8. 通过smtplib和email发送验证码到电子邮箱(Python3.7.X)
  9. 尚学堂python开发工具_尚学堂百战程序员分享:Python的数据模型
  10. java脚本错误修复,win10系统使用iE浏览器时不断出现Java活动脚本功能出错问题的操作技巧...
  11. 从正则表达式到NFA(Thompson算法)
  12. x86 实模式与保护模式
  13. CAN总线(一)——CAN总线是什么,在哪用,怎么用?
  14. 解决ORA-00904: invalid identifier
  15. 以太坊系列(二)---Ubuntu20.04安装以太坊开发环境并建立私有链
  16. Testin融资后首个举措:推出O2O一站式测试服务
  17. marvell raid linux,联想ThinkStation工作站板载Marvell阵列创建方法
  18. 为什么要用频谱分析仪测量频谱?
  19. QT实现播放wmv视频文件QMediaPlayer_QVideoWidget
  20. 2023版Python数据分析,学习路径拆解及资源推荐(附详细思维导图)

热门文章

  1. java string.format_如果性能很重要,我应该使用Java的String.format()吗?
  2. lambda 两个list获取交集_《Java8 实战》笔记 - Lambda 表达式
  3. 2020计算机二级office高级应用,2020计算机二级ms-office高级应用试题.docx
  4. php裁剪图片白边,php生成缩略图自动填充白边例子
  5. MySQL的Limit详解
  6. OSPF笔记——LSA及其字段,及其作用
  7. coursera 计算概论与程序设计基础(李戈)-第一题
  8. eclipse jad
  9. Android 性能优化案例
  10. Java 常用语法和数据结构