树模型——机器学习面试
决策树处理连续值的方法
CART采用的是二分法:对于连续属性a,我们可考察包括 n-1 个元素的候选划分集合(n 个属性值可形成 n-1 个候选点):
利用每个中的候选点对数据进行划分,得到两个子集,计算信息增益,取最大的信息增益对应作为该属性的信息增益。
决策树如何防止过拟合
提前结束
- 限制树的深度:当达到设置好的最大深度的时候结束;
- 当继续展开后节点混乱程度的减小值比较小时,结束;
- 叶子节点最小数据量限制:一个结点的数据量过小,结束;
剪枝
- 预剪枝
- 后剪枝
- Reduced-Error Pruning(REP,错误率降低剪枝)
- Pesimistic-Error Pruning(PEP,悲观错误剪枝)
- Cost-Complexity Pruning(CCP,代价复杂度剪枝)
- Minimum Error Pruning (MEP, 最小误差剪枝)
决策树的优点和缺点
- 优点:
- 决策树算法中学习简单的决策规则建立决策树模型的过程非常容易理解,
- 决策树模型可以可视化,非常直观
- 应用范围广,可用于分类和回归,而且非常容易做多类别的分类
- 能够处理数值型和连续的样本特征
- 缺点:
- 很容易在训练数据中生成复杂的树结构,造成过拟合(overfitting)。剪枝可以缓解过拟合的负作用,常用方法是限制树的高度、叶子节点中的最少样本数量。
- 学习一棵最优的决策树被认为是NP-Complete问题。实际中的决策树是基于启发式的贪心算法建立的,这种算法不能保证建立全局最优的决策树。Random Forest 引入随机能缓解这个问题
RF, GBDT的区别
GBDT和随机森林的相同点:
- 都是由多棵树组成
- 最终的结果都是由多棵树一起决定
GBDT和随机森林的不同点:
- 组成随机森林的树可以是分类树,也可以是回归树;而GBDT只由回归树组成
- 组成随机森林的树可以并行生成;而GBDT只能是串行生成
- 对于最终的输出结果而言,随机森林采用多数投票等;而GBDT则是将所有结果累加起来,或者加权累加起来
- 随机森林对异常值不敏感,GBDT对异常值非常敏感
- 随机森林对训练集一视同仁,GBDT是基于权值的弱分类器的集成
- 随机森林是通过减少模型方差提高性能,GBDT是通过减少模型偏差提高性能
随机森林的随机体现在哪方面
- 在机器学习中,随机森林是一个包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别的众数而定。随机森林的随机性体现在每颗树的训练样本是随机的,树中每个节点的分裂属性集合也是随机选择确定的。有了这2个随机的保证,随机森林就不会产生过拟合的现象了。
GBDT分类树拟合的是什么
利用损失函数的负梯度在当前模型的值作为回归问题提升树算法中的残差的近似值,拟合一个回归树。GBDT 每轮迭代的时候,都去拟合损失函数在当前模型下的负梯度。
树模型——机器学习面试相关推荐
- 机器学习(三)树模型
机器学习(一)LR 机器学习(二)SVM 机器学习(三)树模型 机器学习(四)聚类 机器学习(三)树模型 目录 二.树模型 1.ID3 2.C4.5 3.CART树 (1)算法步骤 (2)举例 (3) ...
- 为基于树的机器学习模型构建更好的建模数据集的10个小技巧!
https://www.toutiao.com/a6680019995100971531/ 为了使模型更准确 - 只需对所有分类特征进行独热编码并将所有缺失值归零都可能是不够的. 假设有一个业务问题可 ...
- 【机器学习】为什么在信用风险建模中首选树模型?
信用风险建模是一个可以使用机器学习来提供解决方案的领域,因为它能够从大量异构数据中找到答案.在信用风险建模中,还需要推断特征,因为它们在数据驱动的决策中非常重要. 在这篇文章中,我们来研究什么是信用风 ...
- 机器学习中树模型算法总结之 决策树(下)
写在前面 首先回顾一下上一篇的相关内容,主要是理论的介绍了决策树的模型及几种常见的特征选择准则,具体可参见机器学习中树模型算法总结之 决策树(上).今天主要接着学习,包括决策树的生成(依赖于第一篇的三 ...
- 机器学习中树模型算法总结之 决策树(上)
写在前面 在网上看XGBoost资料的时候觉得自己以前看的树模型算法都忘得差不多了,所以就趁着这个机会把机器学习里的树模型算法重新再过一遍,主要包括决策树.随机森林.提升树.XGBoost等等. 1. ...
- 【机器学习】——逻辑模型:树模型(决策树)
树模型并不只局限于分类场合,而是可用于解决绝大多数机器学习问题,包括排序.概率估计.回归及聚类. 基本的决策树生成算法是一个贪心算法,采用自上而下.分而治之的递归方式来构造. 决策树 决策树算法3要素 ...
- 基于树的机器学习模型的演化
基于树的分类模型是一种监督机器学习算法,它使用一系列条件语句将训练数据划分为子集.每一次连续的分割都会给模型增加一些复杂性,这些复杂性可以用来进行预测.最终结果模型可以可视化为描述数据集的逻辑测试的路 ...
- 【机器学习】树模型遇上类别型特征(Python)
在数据挖掘项目的数据中,数据类型可以分为两种:有序的连续数值 和 无序的类别型特征. 对于xgboost.GBDT等boosting树模型,基学习通常是cart回归树,而cart树的输入通常只支持连续 ...
- 【机器学习】树模型预剪枝和后剪枝
在树模型建模的过程中的树模型的超参数会影响模型的精度,那么如何调整超参数呢?可以提前限制模型的超参数,也可以在训练模型之后再调整.本文将介绍树模型的预剪枝和后剪枝的实践过程. 原始模型 使用基础数据集 ...
最新文章
- mysql允许用户远程连接_mysql允许用户远程连接
- 数学公式基础知识(更新中...)
- 张勇云栖大会谈科技担当与责任:做开放共享人人受益的好科技
- java程序a-z b-y,请完成下列Java程序:对大写的26个英文字母加密,从键盘输入一个大写字母串,输出这个串加密后的结 - 赏学吧...
- 【第二组】项目冲刺(Alpha版本)第三次每日例会 2017/7/13
- 二级公共基础知识_计算机系统习题,二级公共基础知识新增章节
- retrofit框架学习(一)----基本用法
- Everything的使用-初级篇
- secureCRT/telnet工具使用技巧(二):设置快捷登录
- 虚幻引擎5都有哪些重要新功能?
- php unexpected t_if,zblog提示syntax error, unexpected 'if' (T_IF)出错,模版压缩导致PHP提示代码错误...
- oracle19c特性以及CDB环境搭建
- IDEA 运行时出现 too long 异常
- space header page consists of zero bytes in data
- Harry Potter and the Order of the Phoenix
- [抖音电商] 抖音电商新学员必看基础课,抖音新手必看运营教程(价值3980)
- 一个光棍的呐喊!-太经典了
- eplan php文件夹,EPLAN P8 导入部件库的方法-mdb文件
- java 通过 冰蓝 word 转pdf ,最大程度包装pdf 样式和word接近
- 智能物联网网关有哪些必备功能