1.决策树

1.1 认识决策树

决策树思想的来源非常朴素，程序设计中的条件分支结构就是if-then结构，最早的决策树就是利用这类结构分割数据的一种分类学习方法

1.2 信息论基础-银行贷款分析

每猜一次给一块钱，告诉我是否猜对了，那么我需要掏多少钱才能知道谁是冠军？我可以把球编上号，从1到32，然后提问：冠军在1-16号吗？依次询问，只需要五次，就可以知道结果。

32支球队，log32=5比特
64支球队，log64=6比特

*1948年，香农发表了划时代的论文——通信的数学原理，奠定了现代信息论的基础
信息的单位：比特

“谁是世界杯冠军”的信息量应该比5比特少。香农指出，它的准确信息量应该是：

H = -(p1logp1 + p2logp2 + … + p32log32)
H的专业术语称之为信息熵，单位为比特。
公式：

当这32支球队夺冠的几率相同时，对应的信息熵等于5比特
如果：不知道任何一个球队的信息的话，5bit 1/32 1/32
5=-(1/32logp1/32 + 1/32log1/32 + … + 1/32log1/32)
但是当开放一些数据信息时
5<-(1/4logp1/4 + 1/4log1/4 + … )
比如德国1/4 巴西1/4 中国1/4
当得到一些信息时，信息熵是减少的。信息熵越大，不确定性越大。

1.3 决策树的生成

1.4 决策树的划分依据之一-信息增益

注：信息增益表示得知特征X的信息而使得类Y的信息的不确定性减少的程度

特征A对训练数据集D的信息增益g(D,A),
定义为集合D的信息熵H(D)与特征A给定条件下D的信息条件熵H(D|A)之差，即公式为：

结合前面的贷款数据来看我们的公式：

信息熵的计算：
条件熵的计算：

注：

【机器学习】sclearn分类算法-决策树、随机森林相关推荐
1. 机器学习5—分类算法之随机森林（Random Forest）
  随机森林(Random Forest) 前言一.随机森林 1.什么是随机森林 2.随机森林的特点 3.随机森林的生成二.随机森林的函数模型三.随机森林算法实现 1.数据的读取 2.数据的清洗和填 ...
2. 【数据挖掘算法分享】机器学习平台——回归算法之随机森林
  随机森林回归算法是决策树回归的组合算法,将许多回归决策树组合到一起,以降低过拟合的风险.随机森林可以处理名词型特征,不需要进行特征缩放处理.随机森林并行训练许多决策树模型,对每个决策树的预测结果进行合 ...
3. 机器学习分类算法之随机森林（集成学习算法）
  目录什么是集成学习? 随机森林随机森林的生成算法随机森林的随机性
4. 金融风控机器学习第三十一天---拜师课堂机器学习算法--决策树随机森林
  ID3 c4.5的核心是熵 ID3 c4.5 cart 过拟合解决一般用剪枝或者随机森林随机森林代码: #!/usr/bin/python # -*- coding:utf-8 -*-imp ...
5. R语言分类算法之随机森林(Random Forest)
  1.原理分析: 随机森林是通过自助法(boot-strap)重采样技术,从原始训练样本集N中有放回地重复随机抽取k个样本生成新的训练集样本集合,然后根据自助样本集生成k个决策树组成的随机森林,新数据的 ...
6. 机器学习分类算法_达观数据：5分钟带你理解机器学习及分类算法
  1.本文介绍内容:什么是机器学习,机器学习有哪些分类算法,分类算法之k-近邻,决策树,随机森林2.本文适合人群:本文通过通俗易懂的语言和例子介绍核心思想,不拽高大上的名词,适合于不懂机器学习的小白3. ...
7. sklearn分类算法-决策树、随机森林
  sklearn分类算法-决策树.随机森林一.决策树 1.概念决策树思想的来源非常朴素,程序设计中的条件分支结构就是if-then结构,最早的决策树就是利用这类结构分割数据的一种分类学习方法比如: ...
8. 分类算法-决策树、随机森林
  分类算法-决策树.随机森林决策树 1. 认识决策树决策树模型呈树形结构.在分类问题中,表示基于特征对实例进行分类的过程,它可以认为是if-then规则的集合.在决策树的结构中,每一个实例都被一条路 ...
9. R语言基于Bagging算法(融合多个决策树)构建集成学习Bagging分类模型、并评估模型在测试集和训练集上的分类效果（accuray、F1、偏差Deviance）：Bagging算法与随机森林对比
  R语言基于Bagging算法(融合多个决策树)构建集成学习Bagging分类模型.并评估模型在测试集和训练集上的分类效果(accuray.F1.偏差Deviance):Bagging算法与随机森林对比 ...
最新文章
热门文章

【机器学习】sclearn分类算法-决策树、随机森林

分类算法-决策树、随机森林

1.决策树

1.1 认识决策树

1.2 信息论基础-银行贷款分析

1.3 决策树的生成

1.4 决策树的划分依据之一-信息增益

【机器学习】sclearn分类算法-决策树、随机森林相关推荐

最新文章

热门文章