rapidminer decision tree(决策树)手册
目录
概要
描述
分化
输入
输出
参数
教程流程
训练决策树模型
训练决策树模型并应用它来预测结果
回归
概要
此运算符生成可用于分类和回归的决策树模型。
描述
决策树是类似于节点集合的树,旨在创建有关与类的值隶属关系或数字目标值估计值的决策。每个节点表示一个特定属性的拆分规则。对于分类,此规则将属于不同类的值分开,对于回归,它将它们分开,以便以最佳方式减少所选参数条件的误差。
重复构建新节点,直到满足停止条件。类标签属性的预测是根据在生成过程中到达此叶子的大多数示例来确定的,而数值的估计值是通过对叶子中的值求平均值来获得的。
此运算符可以处理包含名义属性和数字属性的示例集。标签属性对于分类必须是名义的,对于回归,标签属性必须是数字。
生成后,可以使用“应用模型”运算符将决策树模型应用于新示例。每个示例都按照拆分规则跟踪树的分支,直到到达叶子。
要配置诊断树,请阅读有关参数的文档,如下所述。
分化
CHAID 运算符提供了一个修剪的决策树,该决策树使用基于卡方的标准,而不是信息增益或增益比标准。此运算符不能应用于具有数字属性的示例集,而只能应用于名义属性。
ID3 运算符提供了未运行决策树的基本实现。它仅适用于具有名义属性的示例集。
随机森林运算符在不同的示例子集上创建多个随机树。生成的模型基于所有这些树的投票。由于这种差异,它不容易过度训练。
Bootstrap聚合(bagging)是一种机器学习集成元算法,用于在稳定性和分类准确性方面改进分类和回归模型。它还减少了方差,并有助于避免“过拟合”。尽管它通常应用于决策树模型,但它可以与任何类型的模型一起使用。
输入
-
训练集(数据表)
用于生成决策树模型的输入数据。
输出
-
模型(决策树)
决策树模型从此输出端口提供。
- 示例集(数据表)
作为输入给出的示例集将传递,而不会通过此端口更改为输出。
-
权重(属性权重)
包含属性和权重值的示例集,其中每个权重表示给定属性的特征重要性。权重由在节点上提供的给定属性的选择的改进总和给出。改进程度取决于所选的标准。
参数
- 标准
选择将在其上选择属性进行拆分的条件。对于这些条件中的每一个,都会根据所选条件优化拆分值。它可以具有以下值之一:
- information_gain:计算所有属性的熵,并选择熵最小的属性进行拆分。此方法偏向于选择具有大量值的属性。
- gain_ratio:信息增益的变体,可调整每个属性的信息增益,以允许属性值的广度和一致性。
- gini_index:标签特征分布之间不相等的度量。对所选属性进行拆分会导致生成的子集的平均基尼指数降低。
- 精度:选择属性进行分割,从而最大限度地提高整个树的精度。
- least_square:选择一个属性进行拆分,该属性可最大程度地减少节点中值的平均值与真实值之间的平方距离。
范围:
- maximal_depth
树的深度因示例集的大小和特征而异。此参数用于限制决策树的深度。如果其值设置为“-1”,则最大深度参数对树的深度没有限制。在这种情况下,将构建树,直到满足其他停止条件。如果其值设置为“1”,则会生成具有单个节点的树。
范围:
- apply_pruning
决策树模型可以在生成后修剪。如果选中,某些分支将根据置信度参数替换为叶子。
范围:
- 信心
此参数指定用于修剪的悲观误差计算的置信水平。
范围:
- apply_prepruning
此参数指定在生成决策树模型期间是否应使用比最大深度更多的停止条件。如果选中,则参数最小增益、最小叶片尺寸、最小拆分尺寸和预运行备选方案的数量将用作停止标准。
范围:
- minimal_gain
节点的增益是在拆分节点之前计算的。如果节点的增益大于最小增益,则节点被分割。最小的增益值越高,分裂就越少,树就越小。值太高将完全阻止拆分,并生成具有单个节点的树。
范围:
- minimal_leaf_size
叶子的大小是其子集中的示例数。树的生成方式是,每个叶子至少具有示例的最小叶子大小数。
范围:
- minimal_size_for_split
节点的大小是其子集中的示例数。仅拆分其大小大于或等于拆分参数的最小大小的节点。
范围:
- number_of_prepruning_alternatives
当通过在某个节点上预运行来阻止拆分时,此参数将调整测试用于拆分的备用节点的数量。在预运行与树生成过程并行运行时发生。这可以防止在某些节点上进行拆分,而在该节点上进行拆分不会增加整个树的判别力。在这种情况下,将尝试拆分备用节点。
范围:
教程流程
训练决策树模型
目标:RapidMiner Studio附带了一个名为“Golf”的示例数据集。这包含有关天气的属性,即“展望”,“温度”,“湿度”和“风”。这些是决定游戏是否可以玩的重要功能。我们的目标是训练一个决策树来预测“播放”属性。
使用检索运算符检索“高尔夫”数据集。通过将 Retrieve 的输出端口连接到决策树运算符的输入端口,可以将此数据馈送到决策树运算符。单击“运行”按钮。这将训练决策树模型并转到结果视图,您可以在其中以图形方式和文本描述对其进行检查。
树显示,每当属性“Outlook”具有“overcast”值时,属性“播放”将具有值“yes”。如果属性“Outlook”具有值“雨”,则可能有两种结果:
a) 如果属性“风”的值为“false”,则“播放”属性的值为“yes”
b) 如果“风”属性的值为“true”,则属性“Play”为“no”。
最后,如果属性“Outlook”具有“sunny”值,则还有两种可能性。
如果属性“湿度”的值小于或等于 77.5,则属性“播放”为“是”;如果“湿度”大于 77.5,则属性“播放”为“否”。
在此示例中,叶节点仅指向标签 Attribute 的两个可能值之一。“播放”属性为“是”或“否”,这表明树模型与数据非常拟合。
训练决策树模型并应用它来预测结果
目标:在本教程中,显示了使用决策树的预测分析过程。它比第一个教程略高级。它还引入了基本但重要的概念,例如将数据集拆分为两个分区。较大的一半用于训练决策树模型,较小的一半用于测试它。我们的目标是看看树模型在测试数据集中预测乘客命运的能力有多好。
回归
在本教程中,决策树用于回归。具有数字目标属性的“Polynominal”数据集用作标签。在训练模型之前,数据集被拆分为训练集和测试集。然后,将回归值与标签值进行比较,以使用性能(回归)运算符获得性能度量值。
rapidminer decision tree(决策树)手册相关推荐
- Decision tree(决策树)算法初探
0. 算法概述 决策树(decision tree)是一种基本的分类与回归方法.决策树模型呈树形结构(二分类思想的算法模型往往都是树形结构) 0x1:决策树模型的不同角度理解 在分类问题中,表示基于特 ...
- Decision Tree决策树练习题
以下习题来自:机器学习实战:基于Scikit-Learn和Tensorflow一书. 如果训练集有100万个实例,训练决策树(无约束)大致的深 度是多少? 答: 一个包含m个叶节点的均衡二叉树的深度等 ...
- 决策树Decision Tree 及实现
本文基于python逐步实现Decision Tree(决策树),分为以下几个步骤: 加载数据集 熵的计算 根据最佳分割feature进行数据分割 根据最大信息增益选择最佳分割feature 递归构建 ...
- 决策树Decision Tree+ID3+C4.5算法实战
决策树Decision Tree 决策树的三种算法: 举个栗子: 熵entropy的概念: 信息熵越大,不确定性越大.信息熵越小,不确定性越小. 其实就是排列组合之中的概率,概率相乘得到其中一个组合, ...
- 决策树 (Decision Tree) 原理简述及相关算法(ID3,C4.5)
Decision Tree 决策树: 决策树是属于机器学习监督学习分类算法中比较简单的一种,决策树是一个预测模型:他代表的是对象属性与对象值之间的一种映射关系.树中每个节点表示某个对象,而每个分叉路径 ...
- 分类Classification:决策树Decision Tree
目录 分类的定义 决策树Decision Tree 混乱衡量指标Gini index 决策树的特点 分类的定义 分类:建立一个学习函数(分类模型)将每个属性集合(x1,x2,...xn)对应到一组已定 ...
- 深度学习:知识回收(Lecture3+4 PLA+Decision Tree)
Lecture 3 PLA and Lecture 4 Decision Tree 序 Lecture 3 PLA Lecture 4 Decision Tree 特征划分 ID3 信息增益 C4.5 ...
- OpenCV3.3中决策树(Decision Tree)接口简介及使用
OpenCV 3.3中给出了决策树Decision Tres算法的实现,即cv::ml::DTrees类,此类的声明在include/opencv2/ml.hpp文件中,实现在modules/ml/s ...
- Python实现决策树(Decision Tree)分类
关于决策树的简介可以参考: http://blog.csdn.net/fengbingchun/article/details/78880934 在 https://machinelearningm ...
- 决策树分类Decision tree classifier
2019独角兽企业重金招聘Python工程师标准>>> import org.apache.spark.sql.SparkSession import org.apache.spar ...
最新文章
- vc++图像保存,重绘
- python对输入的字符串进行解析_python数据类型_字符串常用操作(详解)
- 【剑指offer-Java版】21包含min函数的栈
- oracle ORA-00911 问题 解决
- linux socket API / listen() 两个队列以及第 2 个参数的作用
- uniSWF使用注意事项
- sourcetree,创建工作流报错:Fatal: Not a gitflow-enabled repo yet. Please run 'git flow init' first.-》解决办法...
- 铁道部2012年版全国72个铁路枢纽城市
- 【白皮书分享】2021超新星品牌白皮书-科特勒咨询集团.pdf(附下载链接)
- 【8.12测试】辉夜的见面礼
- 《深入剖析Nginx》一2.5 加桩调试
- org manual翻译--3.6 Org-Plot
- Python学习笔记 03 Python对象
- Python:threading(多线程操作)(转载)
- R语言混合效应(多水平/层次/嵌套)模型及贝叶斯实现
- 对浮点数取模(求余)
- HTML + CSS 宝典 第二节 HTML 核心1
- HFSS激励类型----电流源激励
- java计算抛物线的标准方程_抛物线及其标准方程
- UUID 通用唯一识别码(Universally Unique Identifier)介绍