特征重要性

一个数据集中往往有成百上前个特征,如何在其中选择比结果影响最大的那几个特征。
这里我们要介绍的是用随机森林来对进行特征筛选。
用随机森林进行特征重要性评估的思想其实很简单,说白了就是看看每个特征在随机森林中的每颗树上做了多大的贡献,然后取个平均值,最后比一比特征之间的贡献大小。
好了,那么这个贡献是怎么一个说法呢?
通常可以用基尼指数(Gini index)或者袋外数据(OOB)错误率作为评价指标来衡量。

方法一、利用基尼指数计算

参考文献 https://blog.csdn.net/zjuPeco/article/details/77371645?locationNum=7&fps=1

方法二、利用袋外数据(OOB)错误率计算

参考文献 http://blog.sina.com.cn/s/blog_7103b28a0102w7q1.html

计算某个特征X的重要性时,具体步骤如下:

1)对每一颗决策树,选择相应的袋外数据(out of bag,OOB)​计算袋外数据误差,记为errOOB1.

袋外数据是指,每次建立决策树时,通过重复抽样得到一个数据用于训练​决策树,这时还有大约1/3的数据没有被利用,没有参与决策树的建立。这部分数据可以用于对决策树的性能进行评估,计算模型的预测错误率,称为袋外数据误差。

​已经过证明是无偏估计的,所以在随机森林算法中不需要再进行交叉验证或者单独的测试集来获取测试集误差的无偏估计。

​2)随机对袋外数据OOB所有样本的特征X加入噪声干扰(可以随机改变样本在特征X处的值),再次计算袋外数据误差,记为errOOB2。

3)​假设森林中有N棵树,则特征X的重要性=∑(errOOB2-errOOB1)/N。这个数值之所以能够说明特征的重要性是因为,如果加入随机噪声后,袋外数据准确率大幅度下降(即errOOB2上升),说明这个特征对于样本的预测结果有很大影响,进而说明重要程度比较高。

可参考的文献
https://www.cnblogs.com/zhouxiaohui888/p/6008454.html
https://blog.csdn.net/xiaocong1990/article/details/61414747

随机深林-特征重要性计算方式相关推荐

  1. 随机森林特征重要性计算_R语言随机森林模型中具有相关特征的变量重要性

    原文链接: http://tecdat.cn/?p=13546​tecdat.cn 变量重要性图是查看模型中哪些变量有趣的好工具.由于我们通常在随机森林中使用它,因此它看起来非常适合非常大的数据集.大 ...

  2. 随机森林特征重要性(Variable importance)评估方法

    Random Forest Variable importance 算法介绍 实现 算法流程 分类 回归 实验 实验1:waveform数据集(分类) 实验2:superconductivity数据集 ...

  3. GEE随记(二):随机森林特征重要性的排序

    原因 在Google Earth Engine(GEE)利用随机森林模型进行地物监督分类时,我们往往也需要输出特征重要性来判别哪一种特征对分类最有效,关于随机森林的地物分类可以参考相关博主的文章:GE ...

  4. python随机森林特征重要性_基于随机森林识别特征重要性(翻译)

    博主Slav Ivanov 的文章<Identifying churn drivers with Random Forests >部分内容翻译.博主有一款自己的产品RetainKit,用A ...

  5. 基于业务解释的特征重要性计算

    总第220篇/张俊红 如果有学过或者用过一些算法的同学,应该对特征重要性这个概念并不陌生.算法一般都是用来做预测的,而预测也不是凭空发生的,是基于一些已有的变量(x)进行预测的,那在众多的x中每个x对 ...

  6. python随机森林特征重要性原理_随机森林进行特征重要性度量的详细说明

    特征选择方法中,有一种方法是利用随机森林,进行特征的重要性度量,选择重要性较高的特征.下面对如何计算重要性进行说明. 1 特征重要性​度量 计算某个特征X的重要性时,具体步骤如下: 1)对每一颗决策树 ...

  7. xgboost和随机森林特征重要性计算方法

    随机森林中特征重要性和xgboost不同: 随机森林中的特征重要性主要是基于不纯度(也可以叫做Gini importance): 计算某一个节点不纯度为 其中,ωk\omega_kωk​,ωleft\ ...

  8. 随机森林特征重要性度量

    使用随机森林度量特征重要性的方法在此介绍两种: 通过基尼指数计算节点的不纯度衡量特征重要性 在节点t使用属性a作为划分属性,估计属于不同类的概率,使用p(k|t),k=1,-,Q表示,基尼指数的定义为 ...

  9. python随机森林特征重要性_Python中随机森林回归的特征重要性

    当涉及到决策树时,特征重要性不是一个黑匣子.来自DecisionTreeRegressor的文档:The importance of a feature is computed as the (nor ...

最新文章

  1. Python爬虫大杀器之Requests快速入门
  2. mysql profiling 应用
  3. python编程8g的内存够么_详解解决Python memory error的问题(四种解决方案)
  4. 这么香的技术还不快点学起来,不吃透都对不起自己
  5. python中的post和get请求的区别_HTTP: Request中的post和get区别
  6. plsql怎么导出几十w的数据到csv_Greenplum数据库使用总结(干货满满)初级使用
  7. winapi编程获取文件版本信息的代码_.Net调用WinAPI轻松实现POS小票并口打印
  8. CodeForces1005D - Polycarp and Div 3
  9. http://blog.csdn.net/jiazimo/article/details/17265061
  10. 【风马一族_Java】如何使用ACSLL表的值,
  11. EFResume 一个普通的 Swift 简历模板
  12. 静态HTML网页设计作品 HTML5+CSS大作业——个人网页设计(7页)
  13. Win10 系统菜单和应用程序菜单显示字体模糊
  14. 领导人怎样带领好团队
  15. 快手科技——Animoji
  16. FACEGOOD-Audio2Face(个人学习)
  17. Android:ViewPager详解(异步网络加载图片,带图片缓存,并带导航小圆点)
  18. 百度云生态分享日 | AI技术实践与应用沙龙活动成功举办
  19. 深信服2022届校招——安全服务工程师笔试
  20. Python 集合与集合运算

热门文章

  1. echarts 横向条形图 对比
  2. 如何通过自媒体创业月入万元
  3. DenseBox Unifying Landmark Localization with End to End Object Detection
  4. 云栖社区订阅周刊大盘点
  5. 安卓玩机搞机-----没有第三方包 刷写第三方各种GSI系统 体验非官方系统
  6. Ubuntu系统录屏webm格式mp4格式方法
  7. java 压缩图片时候加水印
  8. 【NOIP2018】旅行 (洛谷P5049 / P5022) O(nlogn)题解
  9. 幼儿园计算机基础知识培训总结,幼儿园园本培训工作总结
  10. CANopen协议 学习笔记