2.1 算法描述

本文提出了一种基于随机森林的Wrapper特征选择方法RFFS,利用随机森林算法的变量重要性度量对特征进行排序,然后采用序列后向搜索方法,每次从特征集合中去掉一个最不重要(重要性得分最小)的特征,逐次进行迭代,并计算分类正确率,最终得到变量个数最少、分类正确率最高的特征集合作为特征选择结果。为了保证实验结果的稳定性,本文采用了10折交叉验证方法,在每一次迭代中,将数据集划分成10等份,利用其中的9份作为训练集用于构建随机森林分类器,剩余的1份作为验证集数据进行验证。在10折交叉验证过程中,选择测试集上分类准确率最高的一次迭代产生的变量重要性排序作为删除特征的依据,将10次迭代的平均分类准确率作为该轮迭代的分类精度。具体过程如算法1所示。

算法1 基于随机森林的特征选择算法RFFS

输入:原始数据集S

输出:验证集上的最大分类正确率TGMaxAcc及其对应的特征集合FGSort

步骤:

1.初始化

1.1读入原始数据集S

1.2设置TGMaxAcc=0

2.For(ft in N-2)

2.1 将数据集S随机划分成10等份

2.2 设置局部最大分类准确率TLMaxAcc=0

2.3 设置局部平均分类准确率TLMeanAcc=0

2.4 初始化10折交叉验证中每次迭代的分类准确率

TLAcc[1∶10]=0

2.5 For(i in 1∶10)

2.5.1 在S上运行randomForest创建分类器

2.5.2 在测试集上执行predict进行分类

2.5.3 比较分类结果与观测值,计算TLAcc

2.5.4 计算TLMeanAcc=TLMeanAcc+TLAcc[i]/10

2.5.5 If(TLMaxAcc<=TLAcc[i])

2.5.6 则TLMaxAcc=TLAcc[i]

2.5.7 对特征按变量重要性排序并存为FSort

2.6 If(TGMaxAcc<=TLMeanAcc)

则TGMaxAcc=TLMeanAcc

FGSort=FSort

2.7 从FSort中去掉重要性得分最低的一个特征,得到新的数据集S

3.输出结果

3.1输出全局最高分类准确率TGMaxAcc

3.2输出全局最高分类准确率对应的特征集合FGSort

注:ft代表循环变量,N代表数据集中所有特征个数。

随机森林特征个数mtry matlab,基于随机森林的特征选择算法相关推荐

  1. 用相关法辨识系统的脉冲响应 matlab,基于相关分析法的系统辨识算法对比及仿真...

    计算机工程应用技术 ComputerKnowledgeand Technology 电脑知识第12卷第9期 (2016年3月) 基于相关分析法的系统辨识算法对比及仿真 冀征难 (国防科技大学 机电工程 ...

  2. 奇异值分解 水印 matlab,基于奇异值分解的数字图像水印算法研究毕业论文

    内容介绍 原文档由会员 何倩倩 发布 基于奇异值分解的数字图像水印算法研究毕业论文 本文共计54页,25261字: 摘 要 数字水印是将身份确认信息或保密信息镶嵌于图像中的一种技术,可靠的水印可为信息 ...

  3. 基于rnn的语音降噪matlab,基于RNN的音频降噪算法 (附完整C代码)

    前几天无意间看到一个项目rnnoise. 基于RNN的音频降噪算法. 采用的是 GRU/LSTM 模型. 阅读下训练代码,可惜的是作者没有提供数据训练集. 不过基本可以断定他采用的数据集里,肯定有ur ...

  4. 【源码】基于拥挤距离的特征选择算法

    提出了两种新的特征选择算法.第一种是filter方法,第二种是wrapper方法.这两种算法都以多目标优化中的拥挤距离作为特征排序的度量.不太拥挤的特征对目标属性(类)有很大的影响.实验结果表明了算法 ...

  5. 随机森林特征重要性计算_R语言随机森林模型中具有相关特征的变量重要性

    原文链接: http://tecdat.cn/?p=13546​tecdat.cn 变量重要性图是查看模型中哪些变量有趣的好工具.由于我们通常在随机森林中使用它,因此它看起来非常适合非常大的数据集.大 ...

  6. 随机游走模型 matlab,基于随机游走的图像分割matlab代码

    [实例简介] 利用随机游走模型对图像进行了分割 编程环境是matlab 含有示例图片 可以直接运行 [实例截图] [核心代码] Randomwalksforimagesegmentation_matl ...

  7. python随机森林特征重要性原理_用随机森林进行特征重要性度量,筛选出来的重要特征是否只对该随机森林来说是重要的,而对其他模型不一定?...

    你的问题可以给出肯定的回答,重要性本来就是一个依赖于模型的指标,一些指标对模型A重要,但对B未必重要. 举个很简单的例子,在欧式距离中,量纲很重要,数值大距离就大数值小距离就小.而在余弦夹角表示距离时 ...

  8. 基于颜色特征的图像匹配MATLAB,基于颜色特征的图像检索系统 这是个MATLAB程序 - 下载 - 搜珍网...

    压缩包 : 基于颜色特征的图像检索系统.rar 列表 基于颜色特征的图像检索系统\007.bmp 基于颜色特征的图像检索系统\01.bmp 基于颜色特征的图像检索系统\011.BMP 基于颜色特征的图 ...

  9. 模拟退火算法团簇matlab,基于改进Basin-Hopping Monte Carlo算法的Fen-Ptm(5≤n+m≤24)合金团簇结构优化...

    摘要: 合金纳米团簇可以充分利用多种金属的协同效应来实现材料的多功能特性,因而备受关注.本文利用改进的Basin-Hopping Monte Carlo算法研究了不同尺寸和不同比例下的Fe-Pt二元合 ...

最新文章

  1. [51nod] 1766树上的最远点对 树的直径 树剖LCA+ST表静态查询
  2. Tomcat配置多个虚拟主机、部署多个项目
  3. C语言试题七十三之请编写函数求两个数的最大公约数
  4. TensorFlow 实例一:线性回归模型
  5. android 异步图片加载 开源,异步加载图片BitmapFun分析
  6. linux内核丢包分析工具,Linux模拟网络丢包与延迟的方法
  7. 代码雨代码源复制_p#39;y代码雨怎么做
  8. 六款练手的javaweb项目源码!
  9. jsp企业员工请假管理系统
  10. 【数学】积分法推导求圆的周长、弧度
  11. 联想关闭计算机,联想电脑关机后自动重启怎么回事
  12. ESP32 系统篇: 优化系统启动时间
  13. Pikka 2.1.0 macOS菜单栏屏幕取色器
  14. 2021北京市高考成绩排名查询,北京2021高考分数排名换算
  15. 2020,中国互联网半坡起步
  16. 俄罗斯央行:犯罪分子很少使用加密货币来回笼资金
  17. Riva Tuner 2.05 安装被瑞星识别为木马病毒
  18. 简易计算器+组合和内部
  19. 如何通过%找到系统文件夹,例如%appdata%
  20. 【大数据Hadoop】HDFS-HA模式下Checkpointer机制代码分析

热门文章

  1. 【ROS-Stage】Stage机器人仿真实验(三)
  2. PHP面试题 - PHP综合应用
  3. Tiny Person数据集基于它的TOD冠亚军方案
  4. arm嵌入式培训学校哪里好?看看有哪些arm学习建议
  5. python 西门子触摸屏通讯_触摸屏通讯
  6. android GMS认证之testGoogleDuoPreloaded
  7. PCI-E 基础知识
  8. 收藏3款功能超级强大的黑科技网站
  9. 基于迫零准则的自适应线性均衡器
  10. 最实用的Modelsim初级使用教程