机器学习训练营——机器学习爱好者的自由交流空间(入群联系qq:2279055353)

回归

使用类DecisionTreeRegressor, 决策树可以应用于回归问题。fit方法取输入数组X, y, 这里的y取浮点值而不是分类的整值。

from sklearn import tree
X = [[0, 0], [2, 2]]
y = [0.5, 2.5]
clf = tree.DecisionTreeRegressor()
clf = clf.fit(X, y)
clf.predict([[1, 1]])

复杂度

通常,构建一棵平衡的二值树的运行时间代价是 O(nsamplesnfeatureslog⁡nsamples)O(n_{samples}n_{features}\log n_{samples})O(nsamples​nfeatures​lognsamples​), 查询时间是 O(log⁡nsamples)O(\log n_{samples})O(lognsamples​). 尽管建树算法试图产生平衡的树,但结果树并不总是平衡的。假设子树维持大致的平衡,在每一个节点的代价包括搜遍 O(nfeatures)O(n_{features})O(nfeatures​) 到找到提供最大熵减少量的特征。在每个节点的代价 O(nfeaturesnsampleslog⁡nsamples)O(n_{features}n_{samples}\log n_{samples})O(nfeatures​nsamples​lognsamples​), 这样,加和所有节点的代价得到整棵树的总的代价是 O(nfeaturesnsamples2log⁡nsamples)O(n_{features}n_{samples}^2\log n_{samples})O(nfeatures​nsamples2​lognsamples​).

Scikit-learn提供了更加有效的决策树构建执行。一个naive执行是,重新计算类标签直方图(分类问题),或者沿着一个给定的特征,在每个新分割点的均值(回归问题)。在所有相关的样本上预先排序特征,保持一个运行标签计数,将减少每个节点的复杂度到 O(nfeatureslog⁡nsamples)O(n_{features}\log n_{samples})O(nfeatures​lognsamples​), 这样,整个代价是 O(nsamplesnfeatureslog⁡nsamples)O(n_{samples}n_{features}\log n_{samples})O(nsamples​nfeatures​lognsamples​). 这是一个基于所有树算法的选项。

实际使用提示

  • 对于包括大量特征的数据,决策树容易过度拟合数据。得到样本与特征的比率是重要的,因为高维空间、小样本的树很容易是过度拟合的。

  • 在建树前可以考虑作特征降维(PCA, ICA, 特征选择)。

  • 使用export函数可视化树,使用参数max_depth=3作为一个初始的树深度,对树拟合数据的程度有一个初步的感觉,然后再增加树深。使用max_depth控制树的规模,避免过度拟合。

  • 使用min_samples_split or min_samples_leaf控制每个叶子节点的样本数。样本量太少通常意味着过度拟合,而样本量太大会抑制树从数据学习。试设min_samples_leaf=5作为初始值,如果样本量变化很大,一个浮点数可以作为这两个参数的百分比。它们之间的区别是,min_samples_leaf保证了在叶子的最小样本量,而min_samples_split能产生任意小的叶子,min_samples_split在文献里是更普遍使用的。

  • 在训练前平衡你的数据集,避免树偏向于占支配地位的类。类平衡可以通过从每个类中抽取等量的样本实现,更好的做法是,规范化每一个类的样本权和到相同的值。

  • 如果样本加权了,那么,使用基于权的预修剪准则,例如,min_weight_fraction_leaf, 更容易优化树结构。

  • 所有的树都使用了np.float32数组。如果训练数据并不是这种格式,将作一个数据集拷贝。

  • 如果输入矩阵X是稀疏的,建议拟合前转换到稀疏的csc_matrix, 预测前转换到稀疏的csr_matrix. 当特征在大多数样本里是0时,在稀疏输入矩阵上的训练时间要更快一些。

树算法

  • ID3(Iterative Dichotomiser 3)算法产生一棵多叉树,在每一个节点寻找产生类目标的最大信息增益的类特征。树生长到最大的规模,然后通常应用一个修剪步,改善树的预测能力。

  • C4.5算法是ID3算法的继承,去掉了对特征必须是类别的限制。它根据数值变量,动态地定义一个离散属性,用来分割连续属性值为一个离散的区间集。C4.5转换训练树(即,ID3算法的输出)为if-then规则集。随后,评价每一个规则的准确性,以此确定规则应用的顺序。

  • C5.0算法是C4.5的升级版,它使用更少的内存,创建更少的规则,而保持更高的准确性。

  • CART(Classification and Regression Trees)算法类似于C4.5, 区别在于它支持数值目标变量(回归),并不计算规则集。CART使用特征和阈值创建二值树,阈值在每一个节点产生最大信息增益。scikit-learn实际使用的是一个CART算法的优化版本。

数学原理

给定训练向量 xi∈Rnx_i\in\mathbb{R}^nxi​∈Rn, i=1,…,Ii=1,\dots,Ii=1,…,I. 标签向量 y∈Rly\in\mathbb{R}^ly∈Rl, 一棵决策树递归地分割空间,使得具有相同标签的样本被分到一起。

令 QQQ 表示节点 mmm 的数据。对于每一个候选分割 θ=(j,tm)\theta=(j, t_m)θ=(j,tm​), jjj 表示特征, tmt_mtm​ 表示分割数据 QQQ 为 Qleft(θ)Q_{left}(\theta)Qleft​(θ), Qright(θ)Q_{right}(\theta)Qright​(θ) 子集的阈值。其中,

Qleft(θ)=(x,y)/xj≤tmQ_{left}(\theta)=(x, y)/x_j\le t_mQleft​(θ)=(x,y)/xj​≤tm​
Qright(θ)=Q∖Qleft(θ)Q_{right}(\theta)=Q \setminus Q_{left}(\theta)Qright​(θ)=Q∖Qleft​(θ)

使用非纯度函数 H()H()H() 计算 mmm 点的不纯度(impurity), HHH 的选择依赖于要解决的问题的性质(分类还是回归)。
G(Q,θ)=nleftNmH(Qleft(θ))+nrightNmH(Qright(θ))G(Q, \theta)=\frac{n_{left}}{N_m}H(Q_{left}(\theta))+\frac{n_{right}}{N_m}H(Q_{right}(\theta))G(Q,θ)=Nm​nleft​​H(Qleft​(θ))+Nm​nright​​H(Qright​(θ))

选择使不纯度最小的参数 θ\thetaθ

θ∗=arg⁡min⁡θG(Q,θ)\theta^*=\mathop{\arg\min}_{\theta}G(Q, \theta)θ∗=argminθ​G(Q,θ)

在子集 Qleft(θ∗),Qright(θ∗)Q_{left}(\theta^*), Q_{right}(\theta^*)Qleft​(θ∗),Qright​(θ∗) 上递归,直到达到最大允许深度, Nm&lt;min⁡{samples}N_m&lt;\min \{samples\}Nm​<min{samples} 或者 Nm=1N_m=1Nm​=1.

分类原则

如果目标是在 0,1,…,K−10, 1, \dots, K-10,1,…,K−1 上取值的分类结果。对于节点 mmm, RmR_mRm​ 表示具有 NmN_mNm​ 个观测的区域,令
pmk=1Nm∑xi∈RmI(yi=k)\mathcal{p}_{mk}=\frac{1}{N_m}\sum\limits_{x_i\in R_m}I(y_i=k)pmk​=Nm​1​xi​∈Rm​∑​I(yi​=k)
是节点 mmm 处属于类 kkk 的观测比例。

表示不纯度,普遍采用的是

  • Gini

H(Xm)=∑kpmk(1−pmk)H(X_m)=\sum\limits_{k}\mathcal{p}_{mk}(1-\mathcal{p}_{mk})H(Xm​)=k∑​pmk​(1−pmk​)

  • 交叉熵

H(Xm)=−∑kpmklog⁡pmkH(X_m)=-\sum\limits_{k}\mathcal{p}_{mk}\log\mathcal{p}_{mk}H(Xm​)=−k∑​pmk​logpmk​

  • 错分

H(Xm)=1−max⁡(pmk)H(X_m)=1-\mathop{\max}(\mathcal{p}_{mk})H(Xm​)=1−max(pmk​)

这里, XmX_mXm​ 是节点 mmm 的训练数据。

回归原则

如果目标变量是连续的,那么对于节点 mmm, RmR_mRm​ 表示具有 NmN_mNm​ 个观测的区域,确定下一步分割的普遍原则是,最小化均方误差(Mean Squared Error), 即,使用终点的均值,最小化L2误差。或者最小化平均绝对误差(Mean Absolute Error), 即,使用终点的中位数值,最小化L1误差。

  • 均方误差

H(Xm)=1Nm∑i∈Nm(yi−cm)2H(X_m)=\frac{1}{N_m}\sum\limits_{i\in N_m}(y_i-c_m)^2H(Xm​)=Nm​1​i∈Nm​∑​(yi​−cm​)2
cm=1Nm∑i∈Nmyic_m=\frac{1}{N_m}\sum\limits_{i\in N_m}y_icm​=Nm​1​i∈Nm​∑​yi​

  • 平均绝对误差

H(Xm)=1Nm∑i∈Nm∣yi−yˉm∣H(X_m)=\frac{1}{N_m}\sum\limits_{i\in N_m}|y_i-\bar{y}_m|H(Xm​)=Nm​1​i∈Nm​∑​∣yi​−yˉ​m​∣

yˉm=1Nm∑i∈Nmyi\bar{y}_m=\frac{1}{N_m}\sum\limits_{i\in N_m}y_iyˉ​m​=Nm​1​i∈Nm​∑​yi​

这里, XmX_mXm​ 是节点 mmm 处的训练数据。

精彩内容,请关注微信公众号:统计学习与大数据

【sklearn第十五讲】决策树之回归篇相关推荐

  1. 决策树模型回归可视化分析_回归树分析与sklearn决策树案例!

    文 | 菊子皮 (转载请注明出处)同名B站:AIAS编程有道 「摘要:」 决策树是非常基础的算法,其不仅能够进行分类还可以进行回归处理,也就是回归树.要想提高决策树的性能还需要做好剪枝的工作. 「关键 ...

  2. [Python从零到壹] 五十九.图像增强及运算篇之图像锐化Scharr、Canny、LOG实现边缘检测

    欢迎大家来到"Python从零到壹",在这里我将分享约200篇Python系列文章,带大家一起去学习和玩耍,看看Python这个有趣的世界.所有文章都将结合案例.代码和作者的经验讲 ...

  3. [Python从零到壹] 五十八.图像增强及运算篇之图像锐化Sobel、Laplacian算子实现边缘检测

    欢迎大家来到"Python从零到壹",在这里我将分享约200篇Python系列文章,带大家一起去学习和玩耍,看看Python这个有趣的世界.所有文章都将结合案例.代码和作者的经验讲 ...

  4. [Python从零到壹] 五十四.图像增强及运算篇之局部直方图均衡化和自动色彩均衡化处理

    首先,祝大家教师节和中秋节快乐! 欢迎大家来到"Python从零到壹",在这里我将分享约200篇Python系列文章,带大家一起去学习和玩耍,看看Python这个有趣的世界.所有文 ...

  5. [Python从零到壹] 四十五.图像增强及运算篇之图像灰度非线性变换详解

    欢迎大家来到"Python从零到壹",在这里我将分享约200篇Python系列文章,带大家一起去学习和玩耍,看看Python这个有趣的世界.所有文章都将结合案例.代码和作者的经验讲 ...

  6. [Python从零到壹] 四十九.图像增强及运算篇之顶帽运算和底帽运算

    欢迎大家来到"Python从零到壹",在这里我将分享约200篇Python系列文章,带大家一起去学习和玩耍,看看Python这个有趣的世界.所有文章都将结合案例.代码和作者的经验讲 ...

  7. [Python从零到壹] 五十六.图像增强及运算篇之图像平滑(中值滤波、双边滤波)

    欢迎大家来到"Python从零到壹",在这里我将分享约200篇Python系列文章,带大家一起去学习和玩耍,看看Python这个有趣的世界.所有文章都将结合案例.代码和作者的经验讲 ...

  8. [Python从零到壹] 五十五.图像增强及运算篇之图像平滑(均值滤波、方框滤波、高斯滤波)

    又是一年1024,首先,祝大家节日快乐! 欢迎大家来到"Python从零到壹",在这里我将分享约200篇Python系列文章,带大家一起去学习和玩耍,看看Python这个有趣的世界 ...

  9. [Python从零到壹] 五十二.图像增强及运算篇之图像掩膜直方图和HS直方图

    欢迎大家来到"Python从零到壹",在这里我将分享约200篇Python系列文章,带大家一起去学习和玩耍,看看Python这个有趣的世界.所有文章都将结合案例.代码和作者的经验讲 ...

  10. 【sklearn】1.分类决策树

    前言 决策树是机器学习中的一种常用算法.相关数学理论我也曾在数学建模专栏中数学建模学习笔记(二十五)决策树 介绍过,本篇博文不注重相关数学原理,主要注重使用sklearn实现分类树的效果. 参考课程见 ...

最新文章

  1. 博弈论经典算法(一)——对抗搜索与Alpha-Beta剪枝
  2. day18 正则表达式
  3. Abp太重了?轻量化Abp框架
  4. C++ 输入有空格一行的接收
  5. python 发邮件_Python发邮件告别smtplib,迎接zmail
  6. Web前后端笔记-通过对称加密算法和信息摘要算法防止数据重放
  7. @SpringBootApplication注解分析
  8. css实现图片虚化_什么? CSS 阴影竟然还有这种骚操作 ?
  9. python【第三篇】迭代器、生成器、闭包
  10. Mac上Gtk-WARNING **: cannot open display解决
  11. 金融IT和ERP,哪个更有前途?
  12. AI顶会论文“趋势”:对新方法的过度关注,与现实问题的脱节
  13. tomcat基础应用详解
  14. java selenium ie_Selenium webdriver Java 操作IE浏览器
  15. Java中CountDownLatch的使用和求多线程的运行时间
  16. 蓝桥杯c语言基础试题答案,2014年蓝桥杯c语言试题及答案
  17. MAC 如何快捷截图
  18. 使用Mediapipe制作抖音特效
  19. android 清理缓存动画,Android仿微信清理内存图表动画(解决surfaceView屏幕闪烁问题)demo实例详解...
  20. 多臂赌博机问题代码实践

热门文章

  1. ASP.NET程序中 抛出Thread was being aborted. 异常(转)
  2. 程序员想创业首先要突破自己三关(转)
  3. OSPF邻接关系状态机
  4. linux远程关机程序,木马中如何编程实现远程关机(VC版)
  5. 快速排序(递归)-三路快速排序(图解)及代码
  6. linux-centos使用 wget命令获取jdk
  7. HttpHandler和ashx要实现IRequiresSessionState接口才能访问Session信息(转载)
  8. mysql的sql性能分析器
  9. asp.net 从客户端中检测到有潜在危险的Request.Form值
  10. C#利用QrCode.Net生成二维码(Qr码)