【机器学习】sclearn分类算法-决策树、随机森林
分类算法-决策树、随机森林
- 1.决策树
- 1.1 认识决策树
- 1.2 信息论基础-银行贷款分析
- 1.3 决策树的生成
- 1.4 决策树的划分依据之一-信息增益
- 1.5 sklearn决策树API
- 1.6 泰坦尼克号乘客生存分类
- 2. 集成学习方法-随机森林
1.决策树
1.1 认识决策树
决策树思想的来源非常朴素,程序设计中的条件分支结构就是if-then结构,最早的决策树就是利用这类结构分割数据的一种分类学习方法
1.2 信息论基础-银行贷款分析
每猜一次给一块钱,告诉我是否猜对了,那么我需要掏多少钱才能知道谁是冠军?我可以把球编上号,从1到32,然后提问:冠 军在1-16号吗?依次询问,只需要五次,就可以知道结果。
32支球队,log32=5比特
64支球队,log64=6比特
*1948年,香农发表了划时代的论文——通信的数学原理,奠定了现代信息论的基础
信息的单位:比特
“谁是世界杯冠军”的信息量应该比5比特少。香农指出,它的准确信息量应该是:
H = -(p1logp1 + p2logp2 + … + p32log32)
H的专业术语称之为信息熵,单位为比特。
公式:
当这32支球队夺冠的几率相同时,对应的信息熵等于5比特
如果:不知道任何一个球队的信息的话,5bit 1/32 1/32
5=-(1/32logp1/32 + 1/32log1/32 + … + 1/32log1/32)
但是当开放一些数据信息时
5<-(1/4logp1/4 + 1/4log1/4 + … )
比如德国1/4 巴西1/4 中国1/4
当得到一些信息时,信息熵是减少的。信息熵越大,不确定性越大。
1.3 决策树的生成
1.4 决策树的划分依据之一-信息增益
注:信息增益表示得知特征X的信息而使得类Y的信息的不确定性减少的程度
特征A对训练数据集D的信息增益g(D,A),
定义为集合D的信息熵H(D)与特征A给定条件下D的信息条件熵H(D|A)之差,即公式为:
结合前面的贷款数据来看我们的公式:
- 信息熵的计算:
- 条件熵的计算:
注:【机器学习】sclearn分类算法-决策树、随机森林相关推荐
- 机器学习5—分类算法之随机森林(Random Forest)
随机森林(Random Forest) 前言 一.随机森林 1.什么是随机森林 2.随机森林的特点 3.随机森林的生成 二.随机森林的函数模型 三.随机森林算法实现 1.数据的读取 2.数据的清洗和填 ...
- 【数据挖掘算法分享】机器学习平台——回归算法之随机森林
随机森林回归算法是决策树回归的组合算法,将许多回归决策树组合到一起,以降低过拟合的风险.随机森林可以处理名词型特征,不需要进行特征缩放处理.随机森林并行训练许多决策树模型,对每个决策树的预测结果进行合 ...
- 机器学习分类算法之随机森林(集成学习算法)
目录 什么是集成学习? 随机森林 随机森林的生成算法 随机森林的随机性
- 金融风控机器学习第三十一天---拜师课堂 机器学习算法--决策树 随机森林
ID3 c4.5的核心是熵 ID3 c4.5 cart 过拟合解决一般 用 剪枝 或者 随机森林 随机森林代码: #!/usr/bin/python # -*- coding:utf-8 -*-imp ...
- R语言分类算法之随机森林(Random Forest)
1.原理分析: 随机森林是通过自助法(boot-strap)重采样技术,从原始训练样本集N中有放回地重复随机抽取k个样本生成新的训练集样本集合,然后根据自助样本集生成k个决策树组成的随机森林,新数据的 ...
- 机器学习分类算法_达观数据:5分钟带你理解机器学习及分类算法
1.本文介绍内容:什么是机器学习,机器学习有哪些分类算法,分类算法之k-近邻,决策树,随机森林2.本文适合人群:本文通过通俗易懂的语言和例子介绍核心思想,不拽高大上的名词,适合于不懂机器学习的小白3. ...
- sklearn分类算法-决策树、随机森林
sklearn分类算法-决策树.随机森林 一.决策树 1.概念 决策树思想的来源非常朴素,程序设计中的条件分支结构就是if-then结构,最早的决策树就是利用这类结构分割数据的一种分类学习方法 比如: ...
- 分类算法-决策树、随机森林
分类算法-决策树.随机森林 决策树 1. 认识决策树 决策树模型呈树形结构.在分类问题中,表示基于特征对实例进行分类的过程,它可以认为是if-then规则的集合.在决策树的结构中,每一个实例都被一条路 ...
- R语言基于Bagging算法(融合多个决策树)构建集成学习Bagging分类模型、并评估模型在测试集和训练集上的分类效果(accuray、F1、偏差Deviance):Bagging算法与随机森林对比
R语言基于Bagging算法(融合多个决策树)构建集成学习Bagging分类模型.并评估模型在测试集和训练集上的分类效果(accuray.F1.偏差Deviance):Bagging算法与随机森林对比 ...
最新文章
- Swift的类,及存储属性,计算发发样码
- Git基础-获取仓库、提交、查看历史、撤销
- 【学习笔记】14、标准数据类型—字典
- springmvc 全局编码_SpringMVC-设置UTF-8编码
- java8 ie_Java8语法糖之Lambda表达式_Hudie.的博客-CSDN博客
- 机器学习笔记(三)---- 逻辑回归(二分类)
- 怎么检测不到我的音频_新专利显示未来的AirPods可能会检测手势 并具有旋转式音量控制功能...
- 您未必知道的Css技巧
- 华硕P4P800-X 主板南桥芯片又烧坏了......
- 树莓派yocto构建
- Assassin’s Creed(hdu4415,贪心)
- 基于ssm java乐轩公司订餐系统
- python如何将秒数转化成时分秒_python时分秒化为秒 python时分秒的正则表达式
- 如何给产品引流?一个产品如何做引流?
- php时区设置为prc还是错误,关于php时区时间错误问题的解决,以及Unix时间戳转换工具...
- 专业流程拓扑软件IAuto3.1.1用户操作手册——赶紧收藏,功能比processon、visio、draw.io更强大!小巧易用!
- python编写一个名片_详解Python做一个名片管理系统
- “慎思笃行,臻于至善”蚂蚁森林合种未来可期
- maven仓库中_remote.repositories的作用
- 好家伙,又火一个。。
热门文章
- “返回指向栈空间的指针”的错误
- 计算收益复利的小例子
- 含有5亿个整数的大文件,如果排序?
- linux编译动态库之fPIC
- 让vim显示空格,及tab字符
- win10系统的服务器在哪里设置密码,window10怎么设置密码
- java 守护线程 run_java守护线程(后台线程)
- 每日一题(31)—— 全局变量可不可以定义在可被多个.C文件包含的头文件中?为什么?
- axure弹窗关闭_干货来袭,Axure插入图标的几种办法
- 数据结构之二叉树:二叉查找树基本功能,Python代码实现——10
- 机器学习5—分类算法之随机森林(Random Forest)