原文链接:

http://tecdat.cn/?p=13546​tecdat.cn


变量重要性图是查看模型中哪些变量有趣的好工具。由于我们通常在随机森林中使用它,因此它看起来非常适合非常大的数据集。大型数据集的问题在于许多特征是“相关的”,在这种情况下,很难比较可变重要性图的值的解释。例如,考虑一个非常简单的线性模型

在这里,我们使用一个随机森林的特征之间的关系模型,但实际上,我们考虑另一个特点-不用于产生数据-

,即相关

。我们考虑这三个特征的随机森林

为了获得更可靠的结果,我生成了100个大小为1,000的数据集。

  1. library(mnormt)
  2. RF=randomForest(Y~.,data=db)
  3. plot(C,VI[1,],type="l",col="red")
  4. lines(C,VI[2,],col="blue")
  5. lines(C,VI[3,],col="purple")

顶部的紫色线是的可变重要性值

,该值相当稳定(作为一阶近似值,几乎恒定)。红线是的变量重要性函数,

蓝线是的变量重要性函数

。例如,具有两个高度相关变量的重要性函数为

看起来 比其他两个

重要得多,但事实并非如此。只是模型无法在

和 之间选择

:有时会

被选择,有时会被选择

。我想我发现图形混乱,因为我可能会想到的 重要性

恒定。考虑到其他变量的存在,我们已经掌握了每个变量的重要性。

实际上,我想到的是当我们考虑逐步过程时以及从集合中删除每个变量时得到的结果,

apply(IMP,1,mean)}

在这里,如果我们使用与以前相同的代码,

我们得到以下图

  1. plot(C,VI[2,],type="l",col="red")
  2. lines(C,VI2[3,],col="blue")
  3. lines(C,VI2[4,],col="purple")

删除时会显示紫线

然而,当我们拥有很多相关特征时,讨论特征的重要性并不是那么直观。

随机森林特征重要性计算_R语言随机森林模型中具有相关特征的变量重要性相关推荐

  1. 语言nomogram校准曲线图_R语言实现Cox模型校准度曲线绘制

    01 研究背景 这是关于cox模型的第二篇文章,上一篇文章分享了运用Lasso回归如何筛选变量,将筛选后的变量绘制Nomogram图,本章分享构建模型后,如何绘制校准曲线. cox模型的验证不同于Lo ...

  2. arma模型_R语言: GARCH模型股票交易量的研究道琼斯股票市场指数

    原文链接: R语言: GARCH模型股票交易量的研究道琼斯股票市场指数​tecdat.cn 我将建立道琼斯工业平均指数(DJIA)日交易量对数比的ARMA-GARCH模型. 获取数据 load(fil ...

  3. consplan r语言_R语言 函数与模型(16):超效率DEA

    原标题:R语言 函数与模型(16):超效率DEA All is Study, All is Research 超效率DEA与R语言运用 卢倩倩 中国人民大学 全文约700字 预计需3分钟阅读全文 SD ...

  4. r语言 python 股票_R语言使用ARIMA模型预测股票收益

    原文链接:http://tecdat.cn/?p=2831 "预测非常困难,特别是关于未来".丹麦物理学家尼尔斯·波尔(Neils Bohr) 很多人都会看到这句名言.预测是这篇博 ...

  5. r语言结构方程模型可视化_R语言Logistic回归模型深度验证以及Nomogram绘制

    01 研究背景 本章将常用的基于R语言实现二元Logistic回归模型临床预测模型的构建和验证,以及诺曼图的绘制记录下来,更为复杂的生存分析中的Cox回归将在后续章节介绍.临床预测模型的思路总结如下: ...

  6. r语言electricity数据集_R语言多元逐步回归模型分析房价和葡萄酒价格:选择最合适的预测变量...

    包含更多的预测变量不是免费的:在系数估算的更多可变性,更难的解释以及可能包含高度依赖的预测变量方面要付出代价.确实,  对于样本大小 ,在线性模型中可以考虑 的预测变量最大数量为 p .或等效地,使用 ...

  7. 推荐系统精排模型中的ID特征

    一.ID特征包括什么? 单ID特征包括:用户ID和物品ID. ID序列特征主要指的是:用户有过行为的物品ID List.比如:用户最近点击过的物品ID集合. 二.物品ID特征怎么加进推荐系统? 2.1 ...

  8. transformer中attention计算方式_Transformer在推荐模型中的应用总结

    最近基于transformer的一些NLP模型很火(比如BERT,GPT-2等),因此将transformer模型引入到推荐算法中是近期的一个潮流.transformer比起传统的LSTM.GRU等模 ...

  9. 语言 重量计算_R语言 第五章 高级绘图工具(4)

    直方图 实例:nutshell包的births2006.smpl数据集,包含了2006年美国出生人口的数据的10%样本,每一条记录有13个变量.使用数据集前,需通过install.packages(& ...

最新文章

  1. dell服务器状态监控系统,Nagios监控Dell服务器硬件状态
  2. eclipse下tomcat配置
  3. Mybatis-Plus 之 人生中荒废的一下午
  4. html5 百度地图api文档,开发指南--百度地图JavaScript API大众版.doc
  5. 【Pytorch神经网络实战案例】10 搭建深度卷积神经网络
  6. CSS和HTML面试题
  7. Android 系统(145)---ODM 开发用户常见需求文档(七)
  8. @程序员,为什么选择 Racket 语言?
  9. 飞康力推“一次付费”的存储定价模式
  10. 网页防篡改测试报告(2008版)
  11. LeetCode4 寻找两个正序数组的中位数
  12. 国内外卫星数据查询地址
  13. 深入Android系统(一)Build系统
  14. win10系统服务器怎样设置密码,win10系统的电脑如何给普通文件夹设置密码
  15. 女孩做妻子前应知道的十件事
  16. 【CentOS7】启动 CentOS7 系统时卡在开机界面 7 解决办法
  17. Bug:数据库的有数据,但是查出来是0
  18. 菊花台-中国朝代歌[摘]
  19. 中国制造2025新机遇 机器视觉行业爆发
  20. 《Oracle内核技术解密》读书笔记(二)

热门文章

  1. mysql 指定数字排序_Mysql数据排序
  2. vsco怎么两个滤镜叠加_10 款超美的 VSCO 调色滤镜,怎么用都好看!
  3. treeset java_Java TreeSet Higher()方法与示例
  4. 日期getUTCMonth()方法以及JavaScript中的示例
  5. OpenCV环境搭建(一)
  6. SharedPreferences详解
  7. Jquery 获取select选中的value、text
  8. 开机显示输入最佳预设值_开机黑屏,有招了(收藏篇)
  9. 小米9私密相册怎么找_“拼藏搜”,手机相册还能这么玩
  10. elementui分页组件按钮样式修改_Vue使用Elementui修改默认最快方法!