以下练习题来自机器学习实战:基于Scikit-Learn和Tensorflow一书。

  1. 如果你已经在完全相同的训练集上训练了五个不同的模型,并 且它们都达到了95%的准确率,是否还有机会通过结合这些模型来获 得更好的结果?如果可以,该怎么做?如果不行,为什么?
    答:如果你已经训练了五个不同的模型,并且都达到了95%的精 度,你可以尝试将它们组合成一个投票集成,这通常会带来更好的结 果。如果模型之间非常不同(例如,一个SVM分类器,一个决策树 分类器,以及一个Logistic回归分类器等),则效果更优。如果它们 是在不同的训练实例(这是bagging和pasting集成的关键点)上完成 训练,那就更好了,但如果不是,只要模型非常不同,这个集成仍然 有效。

  2. 硬投票分类器和软投票分类器有什么区别?
    答: 硬投票分类器只是统计每个分类器的投票,然后挑选出得票最 多的类别。软投票分类器计算出每个类别的平均估算概率,然后选出 概率最高的类别。它比硬投票法的表现更优,因为它给予那些高度自 信的投票更高的权重。但是它要求每个分类器都能够估算出类别概率 才可以正常工作(例如,Scikit-Learn中的SVM分类器必须要设置 probability=True)。

  3. 是否可以通过在多个服务器上并行来加速bagging集成的训练? pasting集成呢?boosting集成呢?随机森林或stacking集成呢?
    答:对于bagging集成来说,将其分布在多个服务器上能够有效加速 训练过程,因为集成中的每个预测器都是独立工作的。同理,对于 pasting集成和随机森林来说也是如此。但是,boosting集成的每个预 测器都是基于其前序的结果,因此训练过程必须是有序的,将其分布 在多个服务器上毫无意义。对于stacking集成来说,某个指定层的预 测器之间彼此独立,因而可以在多台服务器上并行训练,但是,某一 层的预测器只能在其前一层的预测器全部训练完成之后,才能开始训 练。

  4. 包外评估的好处是什么?
    答:包外评估可以对bagging集成中的每个预测器使用其未经训练的 实例进行评估。不需要额外的验证集,就可以对集成实施相当公正的评估。所以,如果训练使用的实例越多,集成的性能可以略有提升。

  5. 是什么让极端随机树比一般随机森林更加随机?这部分增加的 随机性有什么用?极端随机树比一般随机森林快还是慢?
    答:随机森林在生长过程中,每个节点的分裂仅考虑到了特征的一 个随机子集。极限随机树也是如此,它甚至走得更远:常规决策树会 搜索出特征的最佳阈值,极限随机树直接对每个特征使用随机阈值。 这种极限随机性就像是一种正则化的形式:如果随机森林对训练数据 出现过度拟合,那么极限随机树可能执行效果更好。更甚的是,极限 随机树不需要计算最佳阈值,因此它训练起来比随机森林快得多。但 是,在做预测的时候,相比随机森林它不快也不慢

  6. 如果你的AdaBoost集成对训练数据拟合不足,你应该调整哪些 超参数?怎么调整?
    答: 如果你的AdaBoost集成对训练集拟合不足,可以尝试提升估算 器的数量或是降低基础估算器的正则化超参数。你也可以尝试略微提 升学习率。

  7. 如果你的梯度提升集成对训练集过度拟合,你是应该提升还是 降低学习率?
    答:如果你的梯度提升集成对训练集过度拟合,你应该试着降低学 习率,也可以通过早停法来寻找合适的预测器数量(可能是因为预测 器太多)。

  8. 加载MNIST数据集(第3章中有介绍),将其分为一个训练 集、一个验证集和一个测试集(例如使用40000个实例训练,10000个 实例验证,最后10000个实例测试)。然后训练多个分类器,比如一 个随机森林分类器、一个极端随机树分类器和一个SVM。接下来, 尝试使用软投票法或者硬投票法将它们组合成一个集成,这个集成在 验证集上的表现要胜过它们各自单独的表现。成功找到集成后,在测 试集上测试。与单个的分类器相比,它的性能要好多少?

  9. 运行上一个练习中的单个分类器,用验证集进行预测,然后用 预测结果创建一个新的训练集:新训练集中的每个实例都是一个向 量,这个向量包含所有分类器对于一张图像的一组预测,目标值是图 像的类别。恭喜,你成功训练了一个混合器,结合第一层的分类器, 它们一起构成了一个stacking集成。现在在测试集上评估这个集成。 对于测试集中的每张图像,使用所有的分类器进行预测,然后将预测 结果提供给混合器,得到集成的预测。与前面训练的投票分类器相 比,这个集

集成学习与随机森林练习题相关推荐

  1. 《Scikit-Learn与TensorFlow机器学习实用指南》第7章 集成学习和随机森林

    第7章 集成学习与随机森林 来源:ApacheCN<Sklearn 与 TensorFlow 机器学习实用指南>翻译项目 译者:@friedhelm739 校对:@飞龙 假设你去随机问很多 ...

  2. 大白话5分钟带你走进人工智能-第二十八节集成学习之随机森林概念介绍(1)

                                                          第二十八节集成学习之随机森林概念介绍(1) 从本系列开始,我们讲解一个新的算法系列集成学习. ...

  3. 集成学习和随机森林方法

    集成学习和随机森林方法 介绍 本次实验介绍了集成学习的概念及主要方法,包括 Bootstraping.Bagging.随机森林,随后计算随机森林中各个特征的重要性,找出对模型贡献较大的特征. 知识点 ...

  4. 机器学习——基于Bagging的集成学习:随机森林(Random Forest)及python实现

    基于Bagging的集成学习:随机森林的原理及其实现 引入 Bagging装袋 随机森林 随机森林分类 随机森林回归 python实现 随机森林分类 随机森林回归 引入 "三个臭皮匠赛过诸葛 ...

  5. 大白话5分钟带你走进人工智能-第二十九节集成学习之随机森林随机方式 ,out of bag data及代码(2)

              大白话5分钟带你走进人工智能-第二十九节集成学习之随机森林随机方式 ,out  of  bag  data及代码(2) 上一节中我们讲解了随机森林的基本概念,本节的话我们讲解随机森 ...

  6. sklearn综合示例7:集成学习与随机森林

    假设你创建了一个包含1000个分类器的集成,每个分类器都只有51%的概率是正确的(几乎不比随机猜测强多少).如果你以大多数投票的类别作为预测结果,可以期待的准确率高达75%.但是,这基于的前提是所有的 ...

  7. 机器学习-集成学习:随机森林(Random Forest)

    内容参考:https://github.com/NLP-LOVE/ML-NLP/tree/master/Machine%20Learning/3.1%20Random%20Forest​​​​​ 略做 ...

  8. 机器学习实战7-sklearn集成学习和随机森林

    集成方法:聚合一组预测器(比如分类器或回归器)的预测,得到的预测结果也比最好的单个预测器要好. 例如,你可以训练一组决策树分类器,每一棵树都基于训练集不同的随机子集进行训练.做出预测时,你只需要获得所 ...

  9. 第13章 集成学习和随机森林

    1.什么是集成学习? kNN,逻辑回归,SVM,决策树,神经网络,贝叶斯->>用多数算法最终给出的结果当做最终的决策依据,投票:少数服从多数 Voting Classifier(sciki ...

  10. [Hands On ML] 7. 集成学习和随机森林

    文章目录 1. 投票分类 2. Bagging.Pasting 3. Out of Bag 评价 4. 随机贴片与随机子空间 5. 随机森林 6. 极端随机树 Extra-Trees 7. 特征重要程 ...

最新文章

  1. 科技论文的几种类型-如何写好科技论文之我见(二)
  2. 通过Roslyn构建自己的C#脚本(更新版)
  3. 【数据库系统】关系模型、关系、元组、属性、关系实例
  4. Python的模块千奇百怪,居然有自动发短信的模块?
  5. 数据科学 IPython 笔记本 8.8 直方图,分箱和密度
  6. 特斯拉否认推出16万元电动车 近期全球多地曝召回
  7. 【合集】高等数学随堂笔记-乐经良老师-全系列内容汇总
  8. 增强型绿植植被指数_植被指数计算方法
  9. 基于Python的电商数据分析系统
  10. php网站开题报告该怎么答辩,如何应对开题报告答辩?看完你就明白了
  11. SQLServer中定义拼音检索函数,根据中文参数返回对应汉字的拼音首字母
  12. html桂花酿网页,桂花酒的做法
  13. 服务器清理文件,裸金属服务器清理文件
  14. 《东周列国志》第九十六回 蔺相如两屈秦王 马服君单解韩围
  15. 滤波器相关知识(更新中)
  16. 究竟wifi是怎么定位我的
  17. 数据迁移:电脑更换硬盘怎么迁移数据?
  18. composer镜像源切换
  19. 【使用zookpeer】模拟 hadoop的 datenode与namenode 的master-slaves的 关系
  20. oracle通过imp导出数据库时提示:这些对象由***导出,而不是当前用户解决方法

热门文章

  1. Spring Batch 入门教程
  2. 甩一个Microsoft office visio 2013的百度云连接
  3. keil 之Vscode编辑器插件、格式化代码插件和最新注册机分享
  4. C# 实现虚拟打印机 HP Color LaserJet 4500 (3) PRN文件的显示
  5. Xamarin入门一 环境准备
  6. Python处理海量手机号码
  7. iOS字体(UIFont)的相关知识
  8. fm信号表达式_chirp信号表达式
  9. Fgui Glist 实现无限滑动 虚拟列表
  10. 如何在服务台提交工单?