为什么决策树模型不考虑变量之间的共线性?
在做线性回归时,假设之一是要求自变量之间没有强共线性,但是用决策树模型做预测时,却没有这个要求。于是乎,查询了一下,在Quora上找到了相关答案。Is multicollinearity a problem with gradient boosted trees?
总结一下,主要有下面几个原因
1.在统计分析中,作推断(inference)时,如果自变量存在共线性,将无法区分它们对因变量的影响,因此无法对结果进行清除的解释。
2.但是作预测(prediction)时,我们并不关系如何解释自变量对因变量的影响。GBT 也更像一个black-box,很适合做预测分析。
3.做预测分析时,即时我们用OLS方法,如果特征存在强相关性,会导致特征矩阵不可逆,但此时,我们仍然可以利用psedoinverse matrix进行计算。
4. 做预测时,往往用贪婪算法进行变量选择,只有新变量对结果影响比较大时,才会被加入到模型中,因此,在step-wise variable selection的过程中,共线性的变量只有一个会被选入到模型中。在决策树模型中,每一个树的构建都是贪婪的,因此,冗余的特征并不会被加入模型中。
(如果理解有问题,欢迎批评指正)
为什么决策树模型不考虑变量之间的共线性?相关推荐
- R语言广义加性模型GAMs:可视化每个变量的样条函数、样条函数与变量与目标变量之间的平滑曲线比较、并进行多变量的归一化比较、测试广义线性加性模型GAMs在测试集上的表现(防止过拟合)
R语言广义加性模型GAMs:可视化每个变量的样条函数.样条函数与变量与目标变量之间的平滑曲线比较.并进行多变量的归一化比较.测试广义线性加性模型GAMs在测试集上的表现(防止过拟合) 目录
- R语言使用glm构建logistic回归模型,构建多个协变量和分组变量之间的关系模型进行倾向性评分计算、估计(Propensity score)、预测倾向性评分并可视化不同分组倾向性评分的分布
R语言使用glm构建logistic回归模型,构建多个协变量和分组变量之间的关系模型进行倾向性评分计算.估计(Propensity score).预测倾向性评分并可视化不同分组倾向性评分的分布 目录
- R语言使用glm构建logistic回归模型,构建多个协变量和分组变量之间的关系模型进行倾向性评分计算、使用predict函数预测倾向性评分并将结果整合到dataframe中
R语言使用glm构建logistic回归模型,构建多个协变量和分组变量之间的关系模型进行倾向性评分计算.估计(Propensity score).使用predict函数预测倾向性评分并将结果整合到da ...
- R语言使用lm函数构建具有交互项的回归模型、使用^号(^)表示变量的交互(每个变量本身以及变量之间的乘积、包含乘法以及乘法的构成项)
R语言使用lm函数构建具有交互项的回归模型.使用^号(^)表示变量的交互(每个变量本身以及变量之间的乘积.包含乘法以及乘法的构成项) 目录
- R语言使用lm函数构建具有交互项的回归模型、使用*号(星号)表示变量的交互(每个变量本身以及变量之间的乘积、包含乘法以及乘法的构成项)
R语言使用lm函数构建具有交互项的回归模型.使用*号(星号)表示变量的交互(每个变量本身以及变量之间的乘积.包含乘法以及乘法的构成项) 目录
- R语言使用glm构建logistic回归模型,构建多个协变量和分组变量之间的关系模型进行倾向性评分计算、估计(Propensity score)
R语言使用glm构建logistic回归模型,构建多个协变量和分组变量之间的关系模型进行倾向性评分计算.估计(Propensity score) 目录
- R语言使用lm函数拟合多元线性回归模型、假定预测变量之间有交互作用、R语言使用effects包的effect函数查看交互作用对于回归模型预测响应变量的影响
R语言使用lm函数拟合多元线性回归模型.假定预测变量之间有交互作用.R语言使用effects包的effect函数查看交互作用对于回归模型预测响应变量的影响 目录
- R语言——决策树模型
决策树(Tree Nodels)是一种创建树状模型的方法,它使用'基尼不纯度'(Gini Impurity)或信息增益(Information Gain)等标准对节点进行递归分割,以创建树状模型.决策 ...
- 决策树模型 朴素贝叶斯模型_有关决策树模型的概述
决策树模型 朴素贝叶斯模型 Decision Trees are one of the highly interpretable models and can perform both classif ...
最新文章
- 获取 Andriod keystore签名证书文件,用于打包APP应用
- mysql和oracle表的互导_oracle到mysql的导数据方式(适用于任意数据源之间的互导)...
- python课程怎么样-python课程体系是怎么样的?
- CAS5.2x单点登录(一)——搭建cas服务器
- 阶梯到XML:1级 - XML简介
- 移动端 长按事件_Flutter事件监听
- JS获取浏览器信息及屏幕分辨率
- Head First Design Patterns(深入浅出设计模式)-设计模式介绍
- 【Andriod Studio实现拨打电话和发送短信功能】
- [CMU 15-445] 17 两阶段封锁协议
- 统计学中的quartile
- Python 这个神器能自动计算函数斜率和梯度, 还能实现逻辑回归模型!
- JavaScript刷LeetCode拿offer-贪心算法
- 【推荐】两大APP与云账户红包SDK集成详情及Demon分享
- html5 cms结构,cms产品架构图.html
- 那些免费低价云主机真的可以永久使用吗?别再被套路了 盐谷君 上海盐谷 今天
- 用户未登录跳转至登录页面
- 阿里云邮箱短信验证和阿里云手机短信发送
- 癸高血糖素——碳水化合物代谢的重要激素
- 人的差异在于业余时间