信贷风险模型

今天在复习随机森林的时候,突然有了一些思考:信贷风险模型在我的理解,就是为了评估某个客户(企业,个体)在贷款等相关业务中,是否能够有效的将其贷款回收。通过自己的一些了解与猜想,信用评估模型中的主要评价来源是客户的数据。那么,数据可能会存在各种各样的数据,例如其历史借贷信息等。同时,收集的数据肯定会有很多的噪声。所以,如何根据这些特征信息来分析客户的借贷情况就显得尤为重要。

通常,在机器学习这里,我们都会构造一个合适的模型,从而根据数据来训练出一个比较合适的参数。这里,数据的特征构造对模型的性能会造成很大的影响。

所以,这里我就联想了到了再进行模型训练之前可以对数据进行一些操作,其中特征的选择就可以借鉴一下。下面,我主要介绍如何使用随机森林进行特征选择。

随机森林-特征重要性评价

这里,随机森林可以作为一种特征选择的工具来进行数据预处理。随机森林的主要思想可由下面这张图来说明:

主要的步骤有三步:

  1. 对于随机森林的每一颗决策树,使用响应的OOB(袋外数据)来计算袋外数据误差(Eroor_OOB1)
  2. 然后,在袋外数据OOB的所有样本中,对于某个样本特征X随机加入噪声干扰,相当于随机改变了样本在特征X处的值,     再次计算袋外数据误差Error_OOB2
  3. N棵树:

随机森林之信贷风险模型特征工程相关推荐

  1. 【问题3】:Kaggle练习题《房价预测》----分别采用的岭回归,随机森林,bagging模型,AdaBoost,XgBoost等。

    第一步:导入基本的模块, 并且加载数据. import pandas as pd import numpy as np import matplotlib.pyplot as plt# index_c ...

  2. 随机森林RF中的特征重要性的计算公式VIM

    特征重要性评估 现实情况下,一个数据集中往往有成百上前个特征,如何在其中选择比结果影响最大的那几个特征,以此来缩减建立模型时的特征数是我们比较关心的问题.这样的方法其实很多,比如主成分分析,lasso ...

  3. 金融风控--申请评分卡模型--特征工程(特征分箱,WOE编码) 标签: 金融特征分箱-WOE编码 2017-07-16 21:26 4086人阅读 评论(2) 收藏 举报 分类: 金融风

    金融风控-->申请评分卡模型-->特征工程(特征分箱,WOE编码) 标签: 金融特征分箱-WOE编码 2017-07-16 21:26 4086人阅读 评论(2) 收藏 举报 分类: 金融 ...

  4. 通过随机森林的例子解释特征重要性

    https://www.toutiao.com/a6657142683347190284/ 2019-02-12 23:53:35 在许多(业务)案例中,同样重要的是不仅要有一个准确的机器学习模型,还 ...

  5. 数据与特征对随机森林的影响(特征对比、特征降维、考虑性价比)

    数据与特征对随机森林的影响(特征对比.特征降维.考虑性价比)_PanDawson的博客-CSDN博客_随机森林降维

  6. 随机森林(RFC)实现模型优化与特征提取

    随机森林既可以进行分类也可以进行回归预测,这里通过随机森林(RFC)模型对汽油辛烷值RON进行特征提取与模型优化. 一.导入相关的数据库 import matplotlib.pyplot as plt ...

  7. 随机森林的特征 是放回抽样么_通过随机森林的例子解释特征重要性

    在许多(业务)案例中,同样重要的是不仅要有一个准确的机器学习模型,还要有一个可解释的机器学习模型.通常,除了想知道我们的机器学习模型的房价预测是什么之外,我们还想知道为什么它是这么高/低,以及哪些特征 ...

  8. pyspark做movielens推荐模型特征工程

    重磅推荐专栏: <Transformers自然语言处理系列教程> 手把手带你深入实践Transformers,轻松构建属于自己的NLP智能应用! 前面文章讲了如何使用pyspark做特征工 ...

  9. 机器学习实战案例:使用随机森林/XGBoost等模型进行分类预测,提高银行营销活动效率

    1. 项目背景介绍 在这篇文章中,我们将使用 Python 搭建逻辑回归(Logistic Regression),随机森林(Random Forest),XGBoost,Bagging,KNN (K ...

最新文章

  1. hihoCoder #1047 Random Tree
  2. Selenium3自动化测试——8.定位一组元素
  3. vscode使用教程python-用VSCode写python的正确姿势
  4. C++阶段01笔记06【函数(概述、定义、调用、值传递、常见样式、声明、分文件编写)】
  5. 【转】Vue.js入门教程(二)在页面中引入vue的方式
  6. 雪花算法(snowflake)实现原理图解
  7. VSCode自定义代码片段11——vue路由的配置
  8. 带你梳理Roach全量恢复的整体流程
  9. ORACLE异常(整理网上资料)
  10. Android Studio出现R.raw文件标红找不到错误(有多个模块的Project)
  11. DEVC6.0使用教程
  12. 转载-计算机网络原理
  13. 【Pytorch教程】:激励函数
  14. 金蝶KIS旗舰版7.03 KIS旗舰版7.01 金蝶KIS专业版16.04 KIS专业版16.01 KIS商贸版9.04 KIS商贸版9.01 金蝶K3 15.1 云星空Cloud7.6企业版标准版
  15. Android 更换皮肤
  16. 关于kafka数据丢失场景的一次激烈讨论.... |文末送书
  17. NLP底层技术之句法分析
  18. 正则中的\d与\D、\w与\W、\s与\S各代表什么意思
  19. 致曾经的老游戏天下霸图1——重写天下霸图计划
  20. 学习MATLAB软件心得

热门文章

  1. 面向流动人口管理的人脸验证系统设计及实现 论文+答辩PPT+项目工程文件
  2. ImmunoChemistry艾美捷细胞内GSH测定试剂盒方案
  3. 58 招财猫变形 RSA 与变形 BASE64 逆向分析
  4. 用于夜视和监控的图像增强方法
  5. layui 表格在点表头排序时数据错乱
  6. 搞搞 Prometheus 的告警原理
  7. ubuntu下putty的安装及使用
  8. 2018-2019-2 20175227张雪莹《Java程序设计》 实验二《Java面向对象程序设计》
  9. 正切tan的概念实体化
  10. oracle 11g创建数据库教程