七月在线--金融风控实战--第一课 金融风控业务详解--课程笔记
建模流程:
1.前期准备工作:不同的模型针对不同的业务场景,在建模项目开始前需要对业务的逻辑和需求有清晰的理解,明确好模型的作用,项目周期时间和安排进度,
以及模型效果的要求。
2.模型设计:包括模型的选择(评分卡还是集成模型),单个模型还是做模型的细分,是否需要做拒绝推论,观察期,表现期的定义,好坏用户的定义,数据的
获取途径等都要确定好。
3.数据拉取及清洗:根据观察期和表现期的定义从数据池中取数,并进行前期的数据清洗和稳定性验证工作,数据清洗包括用户唯一性检查,缺失值检查,
异常值检查等。稳定性验证主要考察变量在时间序列上的稳定性,衡量的指标有PSI,平均值/方差,IV等。
4.特征工程:主要做特征的预处理和筛选,如果是评分卡,需要对特征进行离散化,归一化等处理,再对特征进行降维,降维的方法有IV筛选,相关性筛选,
显著性筛选等。另外会基于对业务的深入理解做特征构造工作,包括特征交叉,特征转换,对特征进行四则运算等。
5.模型建立和评估:选择合适的模型,像评分卡用逻辑回归,只需要做出二分类预测可以选择xgboost等集成模型,模型建好后需要做模型评估,计算AUC,KS,
并对模型做交叉验证来评估泛化能力及模型的稳定性。
6.模型上线部署:在风控后台上配置模型规则,对于一些复杂的模型还得需要将模型文件进行转换,并封装成一个类,用Java等其他形式来调用。
模型监控:前期主要监控模型整体及变量的稳定性,衡量标准主要是PSI,并每日观察模型规则的拒绝率与线下的差异。后期积累一定线上用户后可评估线上模型
的AUC,KS,与线下进行比较,衡量模型的线上的实际效果。
特征工程
用户基本属性
phone_nember
- 手机号前缀是否相同
- 手机号归属地是否相同
- 手机号与工作城市是否相同
- 主贷人手机号与联系人手机号相似程度
- 是否是虚拟运营商
- 流量卡还是通话卡
- 手机号前4位:可用于比对iccid的解析手机号
nickname
- 昵称符合固定的规律(中文+数字)
- 备注是否符合某种亲密的称呼
birthday
- 年纪
- 星座
- 生肖
sex
- 性别是否失衡
password
- 是否都相同
身份证号码
- 年龄 核对
- 性别 核对
- 出生城市编号 与身份证户籍核对
邮箱
- 是否是一次性邮箱
- username 满足规律
- 是否同一邮箱服务商
- 邮箱里面的数据(账单)
学历
- 相似性
- 分布是否有明显变化
住房
- 租房情况是否雷同
积分
- 是不是超过某个阈值
签到
- 相似性
ip
- 是否是同一个号段
- 每次登录ip地址是否相同
- 是不是临时ip 和 gps
- ip 和 gps 是否能对的上
gps
- 经纬度相似性分析
- 国家 省份 城市 相似性
- ip 和 gps 是否能对的上
- 常住地址是否一致
- 工作地址是否一致
wifi
- ssid
- wifi list
- 贷款前的几分钟有没有切换过wifi
- 同一个WiFi申请贷款人数
application time
- 时间切片
- 注册用了多长时间(太快太慢都有问题)
- 一共申请了几次
login time
- 时间切片
- 登陆了几次、频率
- 最后一次登录时间距贷款时间的间隔
- 同一时间登录做一个校验(同一时间多人登录)
ua(user agent)
- 每次打开是否是同一个ua
渠道
- app/H5/微信
- 渠道ID属于违规渠道
app version
- 每次app的版本号是否相同
- app版本会不会太老了(老版本的app有bug,可能会被黑中介用来攻击我们)
推荐人/联系人
- 名字匹配
- 手机号匹配
- 多人互为或共用紧急联系人(联系方式)
设备指纹
imei
- 受否都相同
- 每次登录imei号是否都相同
device id
- 是否都相同
- 每次登录device id号是否都相同
分辨率
- 手机型号和屏幕分辨率是否一致
mobile type
- 手机品牌
- 手机型号
os(operating system)
- 每次打开操作系统是否都相同
- 来申请的人是否os都相同
- os的版本是否太旧
中文错别字可以考虑转换成拼音做相似度匹配
address
- 地址要标准化
- 模糊匹配
- 相似度计算(cos距离,词向量)
company
- 正则
- 字节拆分
- 关键字提取
- 相似度计算
- 错别字/同音字识别
第三方数据
人行征信
- 公司信息是否一致
- 学历是否一致
- 居住地址是否一致
- 手机号码是否一致
- 逾期数据
运营商
- 是否有相同的联系人
- 是否有黑名单客户在通讯录中
- 通话最频繁的几个人(所在地是否和他相同)
社保公积金
- 工资
- 社保缴纳月数、金额
- 公积金缴纳月数、金额
七月在线--金融风控实战--第一课 金融风控业务详解--课程笔记相关推荐
- 量化交易 实战第二课 金融时间序列分析 Part 1
量化交易 实战第一课 金融时间序列分析 Part 1 概述 平台 获取股票数据 需求 函数 index_components - 获取指数成分股列表 get_price - 合约历史数据 代码 统计分 ...
- 无人驾驶实战第一课--七月在线
无人驾驶实战第一课--七月在线 概述 无人驾驶分级 L4级架构 自动驾驶软件概述 mark一下,希望坚持下去 概述 未来的趋势是无人驾驶.传感器,车辆,算法都有非常大的空间. 无人驾驶分级 L0 ,手 ...
- 量化交易 实战第一课 策略入门
量化交易 实战第一课 策略入门 概述 要求 指标 市净率 股票市值 代码实现 概述 不管是技术分析还是基本面分析, 我们在进行投资的时候会选择某些表现好的股票来作为一个股票池. 从中进行交易的判断 ( ...
- OpenCV-Python实战(14)——人脸检测详解(仅需6行代码学会4种人脸检测方法)
OpenCV-Python实战(14)--人脸检测详解(仅需6行代码学会4种人脸检测方法) 0. 前言 1. 人脸处理简介 2. 安装人脸处理相关库 2.1 安装 dlib 2.2 安装 face_r ...
- unity3d开发实战《啪啪三国》技术详解!
unity3d开发实战<啪啪三国>技术详解! 去年11月,上海火溶网络CEO王伟峰以其第一款3d手游产品<啪啪三国>为例,着重讲解了unity3D手机网游开发的经验,其中涉及 ...
- [python opencv 计算机视觉零基础到实战] 四、了解色彩空间及其详解
一.学习目标 了解什么是色彩空间 了解opencv中色彩空间的转换 目录 [python opencv 计算机视觉零基础到实战] 一.opencv的helloworld [[python opencv ...
- docker 容器 exited_Docker实战006:docker容器使用详解
Docker容器也是docker的核心成员,是docker镜像的一个运行实例.一个镜像可以创建多个容器,多个容器也可以在同一台机器上运行并与其他容器共享操作系统内核同时将应用程序与系统其它周围环境隔离 ...
- OpenCV-Python实战(17)——人脸识别详解
OpenCV-Python实战(17)--人脸识别详解 0. 前言 1. 人脸识别简介 2. 使用 OpenCV 进行人脸识别 2.1 使用 OpenCV 进行人脸识别流程示例 3. 使用 dlib ...
- OpenCV-Python实战(16)——人脸追踪详解
OpenCV-Python实战(16)--人脸追踪详解 0. 前言 1. 人脸追踪技术简介 2. 使用基于 dlib DCF 的跟踪器进行人脸跟踪 2.1 完整代码 3. 使用基于 dlib DCF ...
最新文章
- 搭建服务器环境 安装jdk、mysql、Tomcat 以及配置https 记录
- jooq 事务_将jOOQ与Spring结合使用:排序和分页
- 张家口张北:加速“云计算”产业集聚
- 从XML文件读取数据绑定到列表控件2
- C语言中数组越界访问造成死循环现象
- log4c移植到android,使用Android Studio调用C++ 代码-log4cplus
- TLS 协议所定义的严重错误代码是 10。Windows SChannel 错误状态是 1203
- AsynTask用法
- 创业负债累累 | 失败了的我还如何翻盘?是天台见! 我的故事还只是从这件事开始...
- 【重点!记忆化递归+DP】LeetCode 72. Edit Distance
- Linux设备驱动模型一 sysfs
- 推荐两款轻量级股票看盘工具
- wap网站制作教程,android面试试题
- 服务器空文件夹无法删除怎么办,为什么文件夹删不掉
- 历年至今TVB剧集目录(持续更新...我已看过的推荐)
- ftp服务器上传创建文件夹权限设置密码,ftp服务器如何创建文件夹权限设置
- Word表格跨页/翻页有边框,去除(>^ω^<)
- 散点图的相关性与显著性---MATLAB
- mysql 唯一键_MySQL数据库8(十)唯一键
- pwn-栈迁移-ROP
热门文章
- 2021年R1快开门式压力容器操作最新解析及R1快开门式压力容器操作新版试题
- 计算机组成原理XXH是什么,计算机组成原理第一次实验.doc
- html编写出现黄色,HTML黄色简洁形式创意展示网页模板代码
- MATLAB解桁架,matlab中关于桁架问题的程序
- 多层陶瓷电容器用处_陶瓷电容器的分类和用途
- Delphi 判断一个对象是否存在(赋值)的三种办法
- html5 canvas实训报告,初级篇关于HTML5 canvas调研报告样本.doc
- 大数据时代:hadoop对大数据处理的意义
- 西工大计算机考研情况,2007我的西工大计算机考研之路总结
- python广告在哪买_googleadwords python api如何获得广告群竞价