概念属性

信息熵:信息量度量的是一个具体事件发生了所带来的信息,而熵则是在结果出来之前对可能产生的信息量的期望——考虑该随机变量的所有可能取值,即所有可能发生事件所带来的信息量的期望。即

如果一件事情的概率很低,那么它的信息量就很大;反之,如果一件事情的概率很高,它的信息量就很低。简而言之,概率小的事件信息量大,

条件熵:在X给定的条件下,Y的条件概率分布的熵对Y的数学期望。公式为

信息增益:信息增益就是信息熵和特征条件熵的差。就是说对一个确定的数据集来说,H(X)是确定的,那H(X|Y)在Y特征一定的情况下,随机变量的不确定性越小,信息增益越大,这个特征的表现就越好.

信息增益比

基尼指数(CART)

ID3、C4.5、CART 区别

  • ID3只能处理离散型变量,而C4.5和CART都可以处理连续型变量。C4.5处理连续型变量时,通过对数据排序之后找到类别不同的.
  • C4.5实际上是对ID3进行优化,通过引入信息增益比,一定程度上对取值比较多的特征进行惩罚,避免ID3出现过拟合的特性,提升了决策树的泛化能力.
  • ID3和C4.5只能用于分类任务,而CART不仅可以用于分类,也可以应用于回归任务.
  • ID3对样本特征缺失值比较敏感(没有对应的处理机制),而C4.5和CART可以对缺失值进行不同方式的处理.

随机森林

集成学习的主要思路是先通过一定的规则生成多个学习器,再采用某种集成策略进行组合,最后综合判断输出最终结果。通过样本集扰动、输入特征扰动、输出表示扰动、算法参数扰动等方式生成多个学习器,进行集成后获得一个精度较好的"学习器"。

具有代表性的集成学习方法有Boosting,Bagging。

Boosting 采用串行的方式,每一层在训练的时候,对前一层基分类器分错的样本,给予更高的权重。测试时,根据各层分类器的结果的加权得到最终结果。代表性的算法: Adaboost、GBDT、XGBoost。

Bagging是并行的方法,它可以 : 使用相同的算法在不同的训练集上面训练多个基学习器;使用不同的训练算法训练得到多个基学习器。当所有的分类器被训练后,集成可以通过对所有分类器结果的简单聚合来对新的实例进行预测。聚合函数通常对分类是统计模式(例如硬投票分类器)或者对回归取平均。

随机森林和决策树区别_第六讲 决策树与随机森林相关推荐

  1. 计算机辅助测试技术最近的发展,CAT_计算机辅助测试_技术_第六讲_CAT的发展_郑叔芳...

    C A T (计算机辅助测 试 )技术 ▲测控技术基础知识讲座▲ c AT (计算机辅助测试 )技术 第六讲 CA T 的发展 南京航空肮天大学 郑叔芳 cAT 的一个主要优势是具有几乎是无限的技术 ...

  2. python从列表随机取出多个数据_【python】从数组随机取数据

    在神经网络中,经常会用到批量样本训练.我们需要从数组随机取数据,主要有以下几种方法: 1.np.random.shuffle:将原数组打乱 import numpy as np array = np. ...

  3. python生成随机字符串包含数字字母_用大写字母和数字随机生成字符串

    用一行回答: ''.join(random.choice(string.ascii_uppercase + string.digits) for _ in range(N)) 甚至更短,从Python ...

  4. python随机生成英文字符串_Python练习第六题,生成随机字母

    第六题:使用 Python 生成类似于下图中的字母验证码图片 1.思路:随机生成一位字母 参考文档string - 常用字符串操作stringstring.ascii_letters 小写字母 'ab ...

  5. python决策树实例_机器学习中的决策树及python实例

    一棵树在现实生活中有许多枝叶,事实上树的概念在机器学习也有广泛应用,涵盖了分类和回归.在决策分析中,决策树可用于直观地决策和作出决策.决策树,顾名思义,一个树状的决策模型.尽管数据挖掘与机器学习中常常 ...

  6. 中随机打乱序列的函数_提前准备,方能“随机”应对,人生不悔

    一.引用random模块的经典"随机"用法:random(), randint() import randomx = random.random()print('random()返 ...

  7. 随机从mysql中读取_如何实现MySQL表数据随机读取?从mysql表中读取随机数据

    文章转自 http://blog.efbase.org/2006/10/16/244/ 如何实现MySQL表数据随机读取?从mysql表中读取随机数据?以前在群里讨论过这个问题,比较的有意思.mysq ...

  8. sklearn 决策树例子_使用 sklearn 构建决策树并使用 Graphviz 绘制树结构

    决策树最大的优点是我们可以查看最终的树结构,上一篇日志中,我们通过 matplotlib 展示了我们自己的树结构 但是 matplotlib 绘制树结构较为复杂,我们这里来了解一个更为易用的绘图工具  ...

  9. 苹果 python蚂蚁森林自动收能量_通过测试工具自动收取蚂蚁森林能量

    本文仅为自动化工具appium的技术研究,请勿用于任何非正当用途 最近在家远程工作,结果作息更混乱了,早上起不来,导致我蚂蚁森林能量天天被偷,严重影响我沙漠造树"大业" ‍♂️.于 ...

最新文章

  1. springboot 读取配置文件内容的几种方式
  2. 2018未来科学大奖揭晓:袁隆平、马大为、林本坚等7位科学家获奖
  3. C++中的 Round(),floor(),ceil()
  4. Linux 有关管理进程的命令小结
  5. .net5+nacos+ocelot 配置中心和服务发现实现
  6. Linux学习笔记(单用户模式,救援模式,克隆主机,两个linux互相连接)
  7. linux系统信息 命令,Linux_Linux系统信息查看命令大全,系统    # uname -a # - phpStudy...
  8. 15.docker start / stop / restart / rm / pause / unpause
  9. win7一直显示正在关机_当办公场所没有WIFI,有网线,笔记本如何在 win7建立无线网络...
  10. 常用UCI数据集(已处理)
  11. 淘宝获取收货地址列表的 API
  12. 通州区机器人比赛活动总结_机器人大赛赛后总结
  13. mac mini 用法
  14. 【C语言】||(或) (且)
  15. 无法搜索到对方电脑共享的文件
  16. SuperMap iDesktop .NET 9D(2019)产品白皮书
  17. mac terminal终端打开指定文件夹 当前文件夹打开terminal
  18. eBPF 如何简化服务网格
  19. SIGIR22:User-controllable Recommendation Against Filter Bubbles
  20. centos7桌面版安装向日葵 or ToDesk

热门文章

  1. linux的内核设计,Linux内核设计艺术(经典).pdf
  2. linux替换包的脚本,Andorid 自动替换logo打包脚本(支持windows和linux)
  3. python unpack函数_Python numpy.unpackbits函数方法的使用
  4. 前端传值后端接收不到_web前端和后端哪个好
  5. Spring MVC中处理Request和Response的策略
  6. Facebook 分享 MySQL 5.6 到 8.0 的迁移经验
  7. Java 实现滑动时间窗口限流算法,你见过吗?
  8. 程序员的小天地:注释中的快乐
  9. JVM性能调优监控工具jps、jstack、jmap、jhat、jstat、hprof使用详解 | 必须收藏!
  10. 自律到极致-人生才精致「第3期」:中奖结果