前言:陆陆续续已经更新到集成学习了,再有三四期这个系列也就结束了,慢慢的发现博客就是为自己写的,为的博客有点高产,主要是一些接的单子,主要是为了方便下次接单,感觉最近学的有点迷茫了,走人工智能的话要高学历,走大数据开发又要学hadoop这些java框架,我裂开了呀,机器学习学完也就要进阶深度学习了,加油。

1.什么是随机森林

利用多棵树对样本进行训练并预测的一种分类器

其实就是决策树的升级版本,但是与决策树不同的是进行集成学习,在Bagging策略的基础上进行修改后的一种算法,过程为

1:从样本集中用Bootstrap采样选出n个样本;
2:从所有属性中随机选择K个属性,选择出最佳分割属性作为节点创建决策树;
3:重复以上两步m次,即建立m棵决策树;
4:这m个决策树形成随机森林,通过投票表决结果决定数据属于那一类

在这之前就要说明什么是集成学习

2.集成学习

集成学习的思想是将若干个学习器(分类器&回归器)组合之后产生一个新学习器。弱分类器(weak learner)指那些分类准确率只稍微好于随机猜测的分类器(error rate < 0.5);常见的集成学习思想有:Bagging Boosting Stacking

2.1 Bagging方法

Bagging方法又叫做自举汇聚法(Bootstrap Aggregating),思想是:在原始数据集上通过有放回的抽样的方式,重新选择出S个新数据集来分别训练S个分类器的集成技术。也就是说这些模型的训练数据中允许存在重复数据。
Bagging方法训练出来的模型在预测新样本分类的时候,会使用多数投票或者求均值的方式来统计最终的分类结果。
Bagging方法的弱学习器可以是基本的算法模型,eg: Linear、Ridge、Lasso、Logistic、Softmax、ID3、C4.5、CART、SVM、KNN等。
Bagging方式是有放回的抽样,并且每个子集的样本数量必须和原始样本数量一致,但是子集中允许存在重复数据。

RF的推广算法

RF算法在实际应用中具有比较好的特性,应用也比较广泛,主要应用在:分类、回归、特征转换、异常点检测等。常见的RF变种算法如下:
Extra Tree
Totally Random Trees Embedding(TRTE)
Isolation Forest

RF随机森林总结

RF的主要优点:
1. 训练可以并行化,对于大规模样本的训练具有速度的优势;
2. 由于进行随机选择决策树划分特征列表,这样在样本维度比较高的时候,仍然具有比较高
的训练性能;
3. 给以给出各个特征的重要性列表;
4. 由于存在随机抽样,训练出来的模型方差小,泛化能力强;
5. RF实现简单;
6. 对于部分特征的缺失不敏感。
RF的主要缺点:
1. 在某些噪音比较大的特征上,RF模型容易陷入过拟合;
2. 取值比较多的划分特征对RF的决策会产生更大的影响,从而有可能影响模型的效果。

机器学习十大经典算法——随机森林相关推荐

  1. 机器学习十大经典算法之岭回归和LASSO回归

    机器学习十大经典算法之岭回归和LASSO回归(学习笔记整理:https://blog.csdn.net/weixin_43374551/article/details/83688913

  2. 机器学习十大经典算法:深入浅出聊贝叶斯决策(贝叶斯公式,最小风险贝叶斯,最小错误贝叶斯)

    前言    常听人说,在学习一个东西时,如果能够深入浅出的讲给别人听,才算是真的懂了.最近正好在学模式识别,于是就用它来练笔了.贝叶斯决策(Bayes Decision) 是十大经典机器学习算法之一, ...

  3. pagerank数据集_机器学习十大经典算法-PageRank(附实践代码)

    Yo, yo, check it out. 保证看完不晕倒... 如果公式让你脑瓜疼,请忽略公式,或者忽略脑瓜. Kagging咖金:推荐系统之关联规则(附实践代码)​zhuanlan.zhihu.c ...

  4. 机器学习十大经典算法之随机森林

    随机森林简介 随机森林是机器学习一种常用的方法.它是以决策树为基础,用随机的方式排列建立的,森林里每个决策树之间都是没有关联的. 在得到森林之后,当有一个新的输入样本进入的时候,就让森林中的每一棵决策 ...

  5. 机器学习十大经典算法之决策树

    机器学习经典十大算法 机器学习/人工智能的子领域在过去几年越来越受欢迎.目前大数据在科技行业已经炙手可热,而基于大量数据来进行预测或者得出建议的机器学习无疑是非常强大的.一些最常见的机器学习例子,比如 ...

  6. 机器学习十大经典算法

    本文介绍了机器学习新手需要了解的 10 大算法,包括线性回归.Logistic 回归.朴素贝叶斯.K 近邻算法等. 在机器学习中,有一种叫做「没有免费的午餐」的定理.简而言之,它指出没有任何一种算法对 ...

  7. 机器学习十大经典算法之KNN最近邻算法

    KNN简介 KNN(K-NearestNeighbor)是机器学习入门级的分类算法,非常简单.它实现将距离近的样本点划为同一类别:KNN中的K指的是近邻个数,也就是最近的K个点 :根据它距离最近的K个 ...

  8. 机器学习十大经典算法之K-Means聚类算法

    聚类介绍 聚类在机器学习,数据挖掘,模式识别,图像分析以及生物信息等领域有广泛的应用.聚类是把相似的对象通过静态分类的方法分成不同的组别或者更多的子集(subset),这样让在同一个子集中的成员对象都 ...

  9. 机器学习十大经典算法之逻辑回归

    逻辑回归简介 逻辑回归虽然名称有回归两字,但是用来做分类算法的,大家都熟悉线性回归,一般形式是Y=aX+bY=aX+bY=aX+b,y的取值范围是[-∞, +∞].因其简单而受到工业界的关注. Y的取 ...

  10. 机器学习十大经典算法之K-近邻算法(学习笔记整理)

    一.算法概述 K-近邻算法(k-Nearest Neighbor,KNN)是机器学习算法中最简单最容易理解的算法.该算法的思路是:给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的 ...

最新文章

  1. 华为 | 人生苦短,码短情长,有场大Party等你来Pick!
  2. js请求结果拦截机器_js利用jquery的jsonp来解决ajax跨域请求被浏览器拦截结果的问题...
  3. 艾媒报告丨2017年全球移动社交市场研究报告
  4. 分布式一致性hash算法
  5. 修改oracle归档目录和大小
  6. Java生成.jar库
  7. colgroup标签
  8. php监控nginx,zabbix php nginx 监控搭建
  9. 【创建型】Prototype模式
  10. linux pxe dhcp 讲解,RHEL 5 PXE+DHCP+NFS+SFTP无人职守网络安装配置
  11. 奋战聊天机器人(二)语料和词汇资源
  12. php封隔器座封原理,各种封隔器的特点与坐封原理.ppt
  13. 省中心IEPGM同步到地市的IEPGM有问题,中心为“已商用”状态,地市为“已上架”状态
  14. 不卷了!技术团队成员集体辞职
  15. 基于深度学习的图像压缩
  16. loadrunner12录制事件一直卡在11就不动了,大佬们,求助啊!!!
  17. HTML(hiden控件 readonly disabled)(maxlength属性)(id属性重点)
  18. 根据.mdf、.ndf和.ldf文件恢复数据库数据
  19. 白杨SEO:微信视频号直播功能怎么开通?视频号有什么价值?
  20. 【matplotlib】绘制简单二维、三维图像

热门文章

  1. 全宁对医药行业销售代表的介绍
  2. 192B Walking in the Rain
  3. J2EE Architecture(6)
  4. Google日历服务快捷、简便
  5. Altium Designer(四):敷铜设置
  6. 添加用户到sudoers
  7. 输入一个十进制数N,将它转换成R进制数输出(运用递归实现)
  8. C++的函数指针的使用(仍存在问题)
  9. SQL Server里的自旋锁介绍
  10. 避免“被忽略” 如何向上司“喜传捷报”?