1、决策树是一类常见的机器学习方法,是基于树结构进行决策的。一般的,一棵决策树包含两类结点:内部节点和叶结点,其中内部节点表示表示一个特征或属性,叶结点表示__决策结果____。

2、在决策树学习中,一般情况下,属性a 的信息增益越大,则意味着使用属性a 来进行划分获得的__“纯度提升越大”______

3、信息增益准则对__可取值数目较多_______的属性有所偏好,增益率准则对__可取值数目较少_____的属性有所偏好。

4、在决策树学习中,C4.5决策树算法中采用__二分法___对连续属性进行离散化处理。

5、决策树学习算法包括3部分:特征选择、树的生成和树的剪枝。特征选择的目的在于选择对训练数据能够分类的特征。特征选择的关键是其准则,常用的准则有哪些,请简单描述。

常用准则有信息增益、增益率、基尼指数。

信息增益:

属性的信息增益越大,则意味着使用该属性来划分所获得的纯度提升越大,因此,可用信息增益来进行决策树的划分属性选择。信息增益准则对可取值数目较多的属性有所偏好。

增益率:

增益率在信息增益的基础上除以一个固有值,增益率准则对可取值数目较少的属性有所偏好。

基尼指数:

基尼值反映了数据集中随机抽取两个样本,其类别标记不一致的概率,数据集的纯度越高。属性的基尼指数在基尼值的基础上乘以一个固定值,选择是的划分后基尼指数最小的属性作为划分属性。

6、常用的决策树学习算法有ID3、C4.5和CART,介绍它们采用的特征选择准则是什么?

ID3采用信息增益准则;

C4.5采用增益率准则;

CART采用基尼指数准则。

7、简述决策树生成与决策树剪枝。

决策树生成是一个递归过程,在决策树基本算法中,有三种情况会导致递归返回:

  1. 当前节点包含的样本全属于同一类别,无需划分。
  2. 但前属性集为空,或是所有样本在所有属性上取值相同,无法划分。
  3. 单前节点包含的样本集为空,不能划分。

决策树剪枝是决策树学习算法对付过拟合的主要手段。决策树剪枝的基本策略有预剪枝和后剪枝:

预剪枝是指在决策树生成过程中,对每个节点在划分前先进行估计,若当前节点的划分不能带来决策树泛化性能的提升,则停止划分并将当前节点标记为叶节点;后剪枝则是先从训练集生成一刻完整的决策树,然后自底向上地对非叶节点进行考察,若将该节点对应的指数替换为叶节点能带来决策树泛化性能的提升,则将该子树替换为叶节点。

8、决策树剪枝的基本策略有预剪枝和后剪枝,请简述并分析两种剪枝策略。

预剪枝:在决策树生成过程中,对每个节点在划分之前先进行估计,若当前节点的划分不能带来决策树泛化性能的提升,则停止划分,并将当前节点标记为叶节点。

后剪枝:先从训练集中生成一课完整的决策树,然后自底向上对非叶子节点进行考察,若将该节点对应的子树替换为叶子结点能带来决策树泛化性能的提升,则将该子树替换为叶节点。

9、根据表4.1中的西瓜数据集,计算属性“纹理”的信息增益。

决策树剪枝的基本策略有预剪枝和后剪枝,请简述并分析两种剪枝策略相关推荐

  1. 模块化多电平变换器MMC两种调制策略实现(交流3000V-直流5000V整流)仿真,单桥臂二十子模块

    模块化多电平变换器MMC两种调制策略实现(交流3000V-直流5000V整流)仿真,单桥臂二十子模块,分别采用最近电平逼近NLM与载波移相调制CPS-PWM实现,仿真中使用环流抑制,NLM中采用快速排 ...

  2. DeFi之道丨两种衍生品策略教你对冲DeFi头寸风险

    注:原文作者是Weiting Chen,文章是根据永续协议研讨会中使用的演示文稿编写的. 如果这是你第一次听说永续合约,那么在深入研究这个问题之前,你应该对它进行一个大概了解. 永续合约是一种简单的获 ...

  3. simulink 风机风电一次调频策略对比,转子动能控制,功率备用控制,变桨控制,两种不同策略对比,频域模型,SFR模型,风机具体内部控制详细

    适合研究不同调频策略对系统频率的改善. 风电渗透率25%.风机内部利用转矩进行模拟物理特性.很详细.频域模型适用于双馈风机,直驱风机等.

  4. ABtest--通过广告点击率指标比较两组营销策略的广告投放效果

    应用场景: A/B测试常用于比较不同设计.运营方案的优劣,以辅助决策. 本次数据分析是通过广告点击率指标比较两组营销策略的广告投放效果. 数据集: effect_tb.csv: 广告点击情况数据集 所 ...

  5. kafka源码分析-consumer的分区策略

    kafka源码分析-consumer的分区策略 1.AbstractPartitionAssignor 2.RangeAssignor 3.RoundRobinAssignor 4.StickyAss ...

  6. Git工作流中常见的三种分支策略:GitFlow、GitHubFlow和GitLabFlow

    摘要:聊一聊Git中的工作流--分支策略. 本文分享自华为云社区<Git工作流中常见的三种分支策略:GitFlow.GitHubFlow以及GitLabFlow>,原文作者:敏捷的小智. ...

  7. 特征选择:11 种特征选择策略总结!

    Datawhale干货 来源:DeepHub IMBA,编辑:数据派THU 本文约4800字,建议阅读10+分钟 本文与你分享可应用于特征选择的各种技术的有用指南. 太多的特征会增加模型的复杂性和过拟 ...

  8. 代码表征预训练语言模型学习指南:原理、分析和代码

    ©作者 | 孙秋实 学校 | 华东师范大学 研究方向 | 自然语言处理 自从 2020 年 CodeBERT 开了代码表征预训练模型(本文称之为 CodePTM)这个新坑后,在短短两年的时间内出现了若 ...

  9. 特征选择:11 种特征选择策略总结

    太多的特征会增加模型的复杂性和过拟合,而太少的特征会导致模型的拟合不足.将模型优化为足够复杂以使其性能可推广,但又足够简单易于训练.维护和解释是特征选择的主要工作. "特征选择"意 ...

最新文章

  1. 电机驱动板测试:是否可以输出150kHz高频信号?
  2. python编程培训多少钱-python培训费用多少?
  3. Javascript中for循环
  4. Spread表格组件For JAVA功能介绍—表格相关操作
  5. SAP Spartacus里的StorefrontConfig静态类型
  6. 【POJ - 2096】Collecting Bugs(概率dp)
  7. 固态电池技术取得新突破,充电一分钟续航800公里
  8. wampserver服务器无法启动(图标颜色不对)
  9. ++递归 字符串全排列_一文看懂全排列算法
  10. Spring No mapping found for HTTP request with URI错误
  11. ERP系统之JPJDE入门-1 JDE 简史
  12. 【Python建模环境搭建】PyCharm的安装配置以及建模插件Matplotlib的安装
  13. 行为树BT设计与实现
  14. selenium实现12306全自动购票
  15. php微信实现线下收银扫码枪扫码支付微信支付
  16. 如何更有效的进行面试
  17. 项目管理之关键链法VS关键路径法
  18. 词频统计(仍需完善版)
  19. 【dva】dva使用与实现(四)
  20. Android GoogleMap 接入

热门文章

  1. 创立和发展初创企业的8点建议(视频)
  2. switch动森amiibo数据_Switch动物之森amiibo怎么用 switch集合啦动物之森amiibo卡有什么用...
  3. 戴尔计算机软件的安装,DELL戴尔电脑系统怎么装
  4. python获取excel单元格内容作为文件名_python——根据电子表格的数据自动查找文件...
  5. 无法吃午餐的学生数量
  6. 怎么在cmd切换python版本_cmd 切换python版本
  7. 【编程实践】怎样卸载spyder中的Kite插件
  8. C语言 输出字母图案(金字塔)
  9. mac系统Command键几个小用法
  10. python+正则表达式爬取京东商品数据信息