引言

决策树(Decision Tree)是一种基本的分类和回归方法。它的扩展方法有GBDT和GBRT 等。决策树模型的学习过程主要有特征选择、决策树生成和剪枝。主要算法有ID3、C4.5和CART等。

一、决策树模型

决策树首先是一个树形结构,它包括两种类型的节点:内部节点和叶节点。内部节点是属性,叶节点是具体的分类。当决策树根据一些学习方法建立好之后,就可以进行实例的预测了,首先从根节点开始,对应决策树的属性进行实例的划分,直至叶节点,那么这个实例的类就被分出来了。一个简单的决策树模型如下图所示:

其实,可以将决策树看成是IF-THEN 规则的集合。决策树还表示给定特征条件下类的条件概率分布。

二、决策树的学习

给定一个数据集合D,每一个实例都有特征和类标签。要生成一颗决策树,使得它能对数据集合D有很好的拟合,同时还要求对未知数据可以进行预测。决策树的学习同样是最小化损失函数。损失函数是正则化的极大似然估计。

决策树的构造如下:
1. 开始构造根节点,将所有数据都放入根节点
2. 选择一个最有特征,按照这一特征将训练数据分割成子集,使得各个子集在当前条件下有一个是最好的分类,如果这些子集都能被正确分类,那么构造叶节点,否则,重复步骤2。直到所有的训练数据都被正确分类,或者没有合适的特征。

这就生成了一棵决策树。上述方法构造的决策树对训练数据集有着很好的拟合,但是对于未知数据的预测却不一定有很好的分类能力,即上述过程可能导致过拟合的问题。解决这一问题的方法是对决策树进行剪枝。另外,如果特征过多,在决策树开始建立之前就可以对特征进行选择。

下边的内容会围绕决策树学习的一些算法展开讨论。

机器学习笔记(七)——决策树模型相关推荐

  1. 图解机器学习算法(6) | 决策树模型详解(机器学习通关指南·完结)

    作者:韩信子@ShowMeAI 教程地址:https://www.showmeai.tech/tutorials/34 本文地址:https://www.showmeai.tech/article-d ...

  2. 机器学习笔记之概率图模型(一)背景介绍

    机器学习笔记之概率图模型--背景介绍 引言 背景介绍 联合概率分布的求解困境 条件独立性假设 概率图的分类 总结 引言 从本节开始将介绍概率图模型. 背景介绍 概率图模型(Probabilistic ...

  3. 机器学习笔记之概率图模型(十)因子图

    机器学习笔记之概率图模型--因子图 引言 回顾:图结构相关思想 因子图 因子图的特点 引言 本节针对精确推断之变量消去法中出现的存在环结构概率图的情况,介绍因子图(Factor Graph),其主要将 ...

  4. 机器学习笔记之概率图模型(六)推断基本介绍

    机器学习笔记之概率图模型--推断的基本介绍 引言 回顾:贝叶斯学派与推断 推断的系统介绍 场景构建 推断的任务 推断方法介绍 回顾:隐马尔可夫模型中的推断问题 引言 前面部分分别介绍了贝叶斯网络(Ba ...

  5. 机器学习笔记之概率图模型(四)基于贝叶斯网络的模型概述

    机器学习笔记之概率图模型--基于贝叶斯网络的模型概述 引言 基于贝叶斯网络的模型 场景构建 朴素贝叶斯分类器 混合模型 基于时间变化的模型 特征是连续型随机变量的贝叶斯网络 动态概率图模型 总结 引言 ...

  6. 机器学习笔记II: 决策树

    决策树的介绍 决策树是一种常见的分类模型,在金融分控.医疗辅助诊断等诸多行业具有较为广泛的应用.决策树的核心思想是基于树结构对数据进行划分,这种思想是人类处理问题时的本能方法.例如在婚恋市场中,女方通 ...

  7. 【机器学习】07. 决策树模型DecisionTreeClassifier(代码注释,思路推导)

    目录 资源下载 实现思路与核心函数解读 DecisionTreeClassifier分类决策树 tree.plot_tree决策树可视化 1. 对决策树最大深度的研究与可视化 绘图结果 分析 2. 对 ...

  8. 【机器学习笔记】——决策树(Decision Tree)

    目 录 1 决策树 1.1 特征选择 1.1.1 基础定义 1.1.2 最优特征标准 1.2 树的生成 1.2.1 ID3 算法 1.2.2 C4.5 算法 1.2.2.1 如果特征是连续的 1.2. ...

  9. 机器学习笔记七——特征工程之特征处理

    特征处理 1.类别型特征的处理-特征编码 1.1 处理少量特征 1.2处理大量的类别特征 2.文本特征的处理--文本形式转换为向量形式 2.1 词集模型 2.2 词袋(Bag-of-Words,Bow ...

  10. python数据分析/机器学习 笔记之决策树(泰坦尼克号旅客生存预测)

    最近在学习用python数据分析,不可避免的接触到了机器学习的一些算法,所以在这里简单整理一些学习的笔记和心得与大家分享! 首先机器学习分为:监督学习和非监督学习,前者有参照物,后者为参照物:主要分为 ...

最新文章

  1. 管理之善,在于让员工有机会试错
  2. 李洪强iOS经典面试题36-简单介绍 ARC 以及 ARC 实现的原理
  3. Avalonia跨平台入门第六篇之Grid动态分割
  4. 一根火柴可以将一瓶大可乐吊起来吗?
  5. 注解动态赋值_Java注解是如何玩转的,面试官和我聊了半个小时
  6. cocos2d-x android 环境搭配,cocos2d-x Android环境配置问题和解决方法
  7. oracle+数据到+mysql数据库乱码_oracle数据mysql数据库乱码
  8. Fail-fast 和 Fail-safe 机制
  9. 目录管理,创建、删除、移动目录,创建、删除、移动文件
  10. java eventbus 原理_事件总线,事件驱动(RxJava,EventBus)与广播(BroadcastReceiver)(2)
  11. Halcon图像预处理与形态学(图像的滤波)
  12. 容器(Context)使用之支付系统
  13. 设置和获取函数体现的软件工程
  14. Java SimpleDateFormat 中英文时间格式化转换
  15. 毕业设计 基于单片机的智能盲人头盔系统 - 导盲杖 stm32
  16. 从字符串中筛选出连续的数字,并将其放入另一个数组!
  17. java中英文切换_中英文切换
  18. 英语语法---连接词详解
  19. 【杂文随笔】2018年总结 送自己一个字
  20. Web测试要点(功能、性能、可用性、兼容、安全)

热门文章

  1. Python小白的数学建模课-02.数据导入
  2. centos6 yum快速安装mysql_centos6.10 yum安装mysql 5.6-Go语言中文社区
  3. linux根目录cat退出,Linux展示cat帮助信息并退出
  4. python与数据处理_python数据处理:数据合并和Reshaping
  5. C++混淆点-static关键字理解
  6. 数据结构-队列2-链式存储
  7. 【功能业务篇】APP获取用户定位、传参经纬度思考
  8. Linux简单实用小技巧
  9. python_文件操作代码实例
  10. stixel提升思路总结