贷款用户逾期问题Task2

  • 任务2 - 特征工程(2天)
  • 特征衍生
  • 特征挑选
  • 具体实现

任务2 - 特征工程(2天)

特征衍生
特征挑选:分别用IV值和随机森林等进行特征选择
……以及你能想到特征工程处理

特征衍生

特征衍生,指利用现有的特征进行某种组合生成新的特征,主要是从业务数据和纯技术生产特征方面着手。

特征挑选

通常我们在清洗数据后,需要进行分箱、计算WOE和IV值(WOE的性质)、特征筛选。

1、分箱(Binning)
对连续变量离散化(Discretization),对离散变量也可进行重新分箱、组合。

2、WOE(Weight of Evidence)

(1) 逻辑回归是线性的统计模式,因此遇到非线性趋势的变数会造成无法有效的建立预测模型,因此需要WOE
(2) WOE与风险成正比,WOE越大,风险越高,代表该层级的客户品质越差。如果WOE接近0,表示接近平均水平。(正负相关可以调节)
(3) WOE = ln(Odds) = ln(%Good/%Bad) = ln(p/(1-p))

3、IV值(Infomation Value)

IV= ∑(%Good-%Bad)*WOE = ∑(%Good-%Bad)*ln(%Good/%Bad)

4、特征选择

根据每个特征的分箱结果计算IV值,留下IV>0.1的变量。当然这个0.1的数值可以根据实际情况改变。

具体实现

……时间太紧,看完之后再整理

贷款用户逾期问题Task2相关推荐

  1. 贷款用户逾期问题Task4

    贷款用户逾期问题Task4 任务4 - 模型评估(2天) 评估 任务4 - 模型评估(2天) 任务4:记录5个模型(逻辑回归.SVM.决策树.随机森林.XGBoost)关于accuracy.preci ...

  2. 贷款用户逾期问题Task3

    贷款用户逾期问题Task3 任务3 - 建模(2天) 逻辑回归LR 支持向量机SVM 决策树 任务3 - 建模(2天) 用逻辑回归.svm和决策树:随机森林和XGBoost进行模型构建,评分方式任意, ...

  3. ML - 贷款用户逾期情况分析5 - 特征工程2(特征选择)

    文章目录 特征选择 (判定贷款用户是否逾期) 1. IV值进行特征选择 1.1 基本介绍 1.2 计算公式 2. 随机森林进行特征选择 2.1 平均不纯度减少 mean decrease impuri ...

  4. ML实操 - 贷款用户逾期情况分析

    目录 任务描述 实现过程 基本思路 1. 数据集预览 2. 数据预处理 3. 特征工程 4. 模型选择 4.1 数据及划分及数据归一化 4.2 LR 4.3 SVM 4.4 决策树 4.5 Xgboo ...

  5. ML - 贷款用户逾期情况分析2 - 特征工程1(数据预处理)

    文章目录 数据预处理 (判定贷款用户是否逾期) 1. 删除无用特征 2. 数据格式化 - X_date 3. 数据处理 - 类别特征 X_cate 4. 数据处理 - 其他非数值型特征 5. 数据处理 ...

  6. 【机器学习-贷款用户逾期情况分析2】3.stacking模型融合

    3.0 任务说明 用你目前评分最高的模型作为基准模型,和其他模型进行stacking融合,得到最终模型及评分果. 3.1 stacking模型融合 Stacking(有时候也称之为stacked ge ...

  7. ML - 贷款用户逾期情况分析6 - Final

    文章目录 思路 1. 导入数据 2. 性能评估函数 3. 模型优化 3.1 LR模型 3.2 SVM模型 3.3 决策树模型 3.4 XGBoost模型 3.5 LightGBM模型 3.6 模型融合 ...

  8. [转载] 机器学习 scikit-learn1 预测贷款用户是否会逾期

    参考链接: 使用Scikit-Learn在Python中减少维度 scikit-learn 一周算法实践集训 简介代码说明代码目录结构代码使用方法 个人总结参考文档任务1. 逻辑回归模型实践[2018 ...

  9. 预测贷款用户是否逾期:数据清洗与预处理

    任务一 做一个项目的第一步是数据清洗与预处理,也是对数据进行探索和分析.这份数据集是金融数据,我们的目标是要预测贷款用户是否会逾期,其中status表示标签,1表示逾期,0表示未逾期. 1.查看数据 ...

  10. 预测贷款用户是否会逾期

    数据信息: 这是本次实践数据的下载地址 https://pan.baidu.com/s/1dtHJiV6zMbf_fWPi-dZ95g 说明:这份数据集是金融数据(非原始数据,已经处理过了),要做的是 ...

最新文章

  1. AI视觉组仙人一步之模型量化
  2. CentOS 初体验二十二:redis常用命令:Hash
  3. 九大排序算法Java实现
  4. 基于左子结点/右兄弟结点表示法和二叉链表来实现二叉树ADT
  5. 给Android平板添加字体,以华为平板为例
  6. 基于C#的“密码学”实验演示系统的设计与实现、.NET下的RSA编程、各种密码学算法的C# GUI编程实现
  7. 阿里云盘+OneManager+Heroku+CFWorkers实现阿里云盘网络挂载
  8. oracle ddl大全,[数据库]Oracle_DDL
  9. 磁盘管理压缩卷显示服务器异常,Win7分配盘符提示“磁盘管理控制台不是最新状态”错误怎么办...
  10. 如何在自己电脑上设php网站,怎么在自己电脑上建网站
  11. linux使用dd命令生成指定大小文件
  12. 个人永久性免费-Excel催化剂功能第22波-Excel文件类型、密码批量修改,补齐PowerQuery短板...
  13. 程序员薪水最高的25家公司
  14. android 老人机模式,如何将智能手机切换成老人机模式
  15. [Pytorch系列-61]:循环神经网络 - 中文新闻文本分类详解-3-CNN网络训练与评估代码详解
  16. 数据库连接池 ( 五 ) Druid 数据监控
  17. 【9505】部落卫队
  18. 使用 CSS 创建自定义鼠标游标
  19. 理解选择排序的不稳定性
  20. python爬取4k高清壁纸(再也不怕没有壁纸了)

热门文章

  1. Android性能优化方案
  2. 4、web(js):js 操作table: insertRow(),deleteRow(),insertCell(),deleteCell()方法
  3. TensorFlow Serving架构分析
  4. HTTP/2 协议规范
  5. 服务器不能使用无线键盘,台式机无线键盘不能使用解决方法
  6. excel公式编辑器_巧用Excel制作炫酷聚光灯效果,数据查看太方便了
  7. flyaway mysql_mysql 常用命令
  8. 企业转型遇到这些难题,就可以考虑一款APS生产计划排产软件了
  9. 自己搭建服务器提供IOS IPA包下载
  10. 李华明Himi 游戏开发