数据科学在风控中的应用-笔记
风控流程
-信贷风控决策体系流程
客户申请-资料填写-要素验证-合规性验证-规则验证-黑名单-反欺诈-信用评分-放款-贷后管理
-某消费金融公司决策体系流程
禁入规则校验:基本信息校验、人行征信分级
欺诈风险校验:身份验证、位置验证、黑名单校验、业务规则校验
模型评分:信用打分
贷后监控:模型监控、用户监控、资产监控
风控要求技能
-技术层面
统计学和数学知识,不要求精通,但要熟练基本概念,一般大学所学就够用
较强的数据处理能力,数据库熟练运用
熟练运用Python或者R
熟练运用机器学习相关算法,LR、决策树、随机森林、Xgboost等
-业务层面
熟练金融风控相关知识
熟练主流金融产品
对相关场景有一定的了解
了解相关监管政策和行业动态
风控的核心
风控模型:基于LR的统计模型、机器学习模型
策略制定:反欺诈策略、业务规则、三方数据规则、额度策略
风控模型介绍
-模型开发流程
数据获取:从现有数据库中手收集可用于开发评分卡模型的相关数据
业务定义:根据产品规划和相关业务,定义违约客户和正常客户,以及观察期和表现期
抽样:根据相关业务,抽取符合建模规则的样本来作为评分卡开发的样本
数据预处理:对抽样后的样本数据进行处理,包括数据清洗,样本转化以及特征筛选
模型开发:在预处理后的样本数据上,利用统计建模或者机器学习算法从数据中拟合出模型
-传统评分卡
基于LR,传统评分卡一般指逻辑回归:
1、逻辑回归目前广泛应用于金融方面,尤其是风险管理领域,最常用的应用场景就是评分卡模型
2、逻辑回归是一种简单,易于解释模型,最终模型输出一个概率,在评分卡模型中,这个可以认为是估计出来的违约概率,通过转化,可以得到一个比较直观的分数
3、逻辑回归模型是二分类模型,且自变量的线性预测与因变量的logit变换相连接的一种广义线性模型
优势:稳定性、业务上好解释、后续诊断容易、模型直观
不足:没有考虑因变量和自变量的非线性关系、难以处理高纬度稀疏数据、模型对变量的预测能力有一定的要求,当变量的整体预测能力比较弱的时候,预测效果比较差
-机器学习评分卡
1、传统统计分析模型的应用受到限制。由于机器学习拥有可以不断重新组织自身结构以改善自身性能的特点,解决了传统风控技术的短板,所以称为可大数据风控的必备手段
2、大量试验结果证明机器学习模型有着良好的鲁棒性和泛化性,比较合适互联网金融中数据分析应用的相关场景
3、大数据风控已成为互联网金融的核心环节,也成为了一个平台的核心竞争力之一
4、传统模型受限严重:由于互联网数据稀疏性强和单变量风险区分能力弱的特点,使得传统统计分析模型也受到严重限制。
机器学习评分卡解决了传统风控的不足:央行征信的不足、信息有效性不足、数据的稀疏性强、单变量区分能力弱
-统计模型与机器学习模型比较
统计模型:
逻辑回归模型
缺点:这种方法一般只考虑了变量与因变量之间的线性关系,且实际情况中变量和因变量之间关系更加复杂
机器学习模型:
随机森林、GBDT、XGboost
优势:实际情况中结果往往不是由多个特征作用效果的线性累加,机器学习模型能够学习特征之间的内在深层联系,得到结果与特征之间的更科学表示
GBDT是基于多个决策树的集成学习算法,根据对多个决策树结果进行加权或者投票得到最终结果避免了单一模型过拟合等现象
随机森林、xgboost、组合模型
机器学习不足:可解释性不强、过拟合、后续诊断难、部署困难
数据科学在风控中的应用-笔记相关推荐
- 数据科学和机器学习中的优化理论与算法(下)
数据科学和机器学习中的优化理论与算法(下) 数据科学和机器学习当前越来越热,其中涉及的优化知识颇多.很多人在做机器学习或者数据科学时,对其中和优化相关的数学基础,包括随机梯度下降.ADMM.KKT 条 ...
- 数据科学和机器学习中的优化理论与算法(上)
数据科学和机器学习中的优化理论与算法(上) 数据科学和机器学习当前越来越热,其中涉及的优化知识颇多.很多人在做机器学习或者数据科学时,对其中和优化相关的数学基础,包括随机梯度下降.ADMM.KKT 条 ...
- 电商支付数据在信贷风控中的应用
笔者在之前的工作经历中,曾做过针对电商/支付数据开发信用资质分的一个项目,下面我会介绍这两类数据是如何应用在信贷风控中的,内容包括电商支付数据的使用场景,做风险特征衍生的思路,以及在策略及模型上的应用 ...
- 在数据科学人才教育中不断前行: 《大数据系统基础A、B》课程实践项目中期答辩顺利举行...
为服务国家大数据发展战略,打造多层次.多类型的大数据人才队伍,清华大学大数据能力提升项目之<大数据系统基础A.B>课程实践项目中期答辩于2018年11月14日顺利举行.清华大学软件学院教授 ...
- 前车之鉴:我在数据科学职位面试中犯过的5个错误
全文共2047字,预计学习时长6分钟 图源:unsplash 我曾经多次参加面试,却总是与offer失之交臂,后来我才发现,我在面试过程中反复地犯了几个关键错误.我从中吸取教训,最终获得了一些数据科学 ...
- # 数据科学和机器学习中的优化理论与算法(上)
本场 Chat 从基础知识的角度,用大白话对数据科学和机器学习中用到的最重要的优化理论和算法做个小结. 本场 Chat 内容如下: 优化中涉及的线性代数数学基础 优化理论中最常提到的一些定义.定理 求 ...
- 数据科学和机器学习中使用的最多的20个R语言包
We list out the top 20 popular Machine Learning R packages by analysing the most downloaded R packag ...
- 《R数据科学》学习笔记|Note5:使用dplyr进行数据转换(下)
点击蓝字 关注我! 写在前面 本系列为<R数据科学>(R for Data Science)的学习笔记.相较于其他R语言教程来说,本书一个很大的优势就是直接从实用的R包出发,来熟悉R及数据 ...
- 独家 | 在数据科学中需要多少数学技能?(附链接)
作者:Benjamin Obi Tayo 翻译:刘思婧 校对:车前子 本文约1600字,建议阅读5分钟 本文为大家介绍了在数据科学和机器学习中所需要的基本数学技能,并且分类给出了相应的主题建议. Je ...
最新文章
- Go 代码中如何绑定 Host
- python字符串常用方法_字符串常用方法
- ## c 连接字符_用于字符比较的C#程序
- 在java程序中怎么造成死锁_java – 了解为什么在此实现中发生死锁
- java 注解校验_Java开发编写自定义校验注解和校验器
- spring boot英语在线学习系统毕业设计-附源码211714
- 打开IIS管理器的两种方式
- Velodyne 16线三维激光雷达
- Linux4 移植 6410,linux 3.4.103 内核移植到 S3C6410 开发板 移植失败 (问题总结,来日再战!)...
- 职业投资策略(转贴)
- Incremental Graph Convolutional Network for Collaborative Filtering(阅读论文笔记)
- Java耗时打印工具类
- 英语国际音标之元音发音技巧
- 没有测试实践就没有发言权
- Eclipse一直building workspace: invoking maven project builder卡主
- 笔记本写代码 屏幕尺寸_为什么笔记本电脑的屏幕尺寸如此奇怪?
- 关于post数据服务器端接收不全
- Jarvis OJ -BASIC-WRITE-UP
- matlab图像去雾实现
- dubbo升级至2.7.15后application配置无法生效
热门文章
- catia知识工程_【开团】CATIA超全直播课程&实例讲解!
- 计算机表情识别技术研究学什么,表情识别的图像预处理和特征提取方法研究
- c++ 数组截取_【学习教程】JavaScript中原生Array数组方法详解
- laravel mysql like_3分钟短文|Laravel 使用like匹配字符串的用法示例
- 深度学习的半精度浮点数的运用
- 日志服务Python消费组实战(三):实时跨域监测多日志库数据
- 【转载】C#中回滚TransactionScope的使用方法和原理
- JavaScript闭包理解【关键字:普通函数、变量访问作用域、闭包、解决获取元素标签索引】...
- nlogn求最长不上升子序列
- uboot环境变量与内核MTD分区关系