一、决策树简介

1.1 什么是决策树?

决策树:是一种树形结构,其中每个内部节点表示一个属性上的判断,每个分支代表一个判断结果的输出,最后每个叶节点代表一种分类结果,本质是一颗由多个判断节点组成的树。

举个例子说明

好多男生不理解的是为什么把年龄放在最上面判断???而不是长相呢?

1.2 决策树的划分依据

熵 Entropy是“混乱”程度的量度。系统越有序,熵值越低;系统越混乱或者分散,熵值越高

信息理论

1、从信息的完整性上进行的描述:

系统的有序状态一致时,**数据越集中的地方熵值越小,数据越分散的地方熵值越大。

2、从信息的有序性上进行的描述:

数据量一致时系统越有序,熵值越低;系统越混乱或者分散,熵值越高

1.2.1 划分依据 1 -- 信息增益

信息增益:以某特征划分数据集前后的熵的差值。熵可以表示样本集合的不确定性,熵越大,样本的不确定性就越大。因此可以使用划分前后集合熵的差值来衡量使用当前特征对于样本集合D划分效果的好坏。(可以理解为信息不确定性减少的程度)

信息增益 = entroy(前) - entroy(后)

1.2.2 划分依据 2 -- 信息增益率

增益率:增益比率度量是用前面的增益度量Gain(S,A)和所分离信息度量SplitInformation(如上例的性别,活跃度等)的比值来共同定义的。

1.2.3 划分依据 3 -- 基尼值和基尼指数

基尼值Gini(D):从数据集D中随机抽取两个样本,其类别标记不一致的概率。故,Gini(D)值越小,数据集D的纯度越高。

基尼指数Gini_index(D):一般,选择使划分后基尼系数最小的属性作为最优化分属性。

1.3 常见决策树类型

1.3.1 ID3算法

存在的缺点

  • ​ ID3算法在选择根节点和各内部节点中的分支属性时,采用信息增益作为评价标准。信息增益的缺点是倾向于选择取值较多的属性,在有些情况下这类属性可能不会提供太多有价值的信息.
  • ​ ID3算法只能对描述属性为离散型属性的数据集构造决策树

1.3.2 C4.5算法

算法特点

  • 用信息增益率来选择属性
  • 可以处理连续数值型属性
  • ​ 采用了一种后剪枝方法
  • ​ 对于缺失值的处理

​ 优点:

  • ​ 产生的分类规则易于理解,准确率较高。

​ 缺点:

  • ​ 在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导致算法的低效。
  • ​ 此外,C4.5只适合于能够驻留于内存的数据集,当训练集大得无法在内存容纳时程序无法运行。

1.3.3 CART算法

  • CART算法相比C4.5算法的分类方法,采用了简化的二叉树模型,同时特征选择采用了近似的基尼系数来简化计算。
  • C4.5不一定是二叉树,但CART一定是二叉树。

二、决策树API和常用参数

class sklearn.tree.DecisionTreeClassifier(criterion=’gini’, max_depth=None,random_state=None)

  • criterion

    • 特征选择标准
    • "gini"或者"entropy",前者代表基尼系数,后者代表信息增益。一默认"gini",即CART算法。
  • min_samples_split
    • 内部节点再划分所需最小样本数
    • 这个值限制了子树继续划分的条件,如果某节点的样本数少于min_samples_split,则不会继续再尝试选择最优特征来进行划分。 默认是2.如果样本量不大,不需要管这个值。如果样本量数量级非常大,则推荐增大这个值。我之前的一个项目例子,有大概10万样本,建立决策树时,我选择了min_samples_split=10。可以作为参考。
  • min_samples_leaf
    • 叶子节点最少样本数
    • 这个值限制了叶子节点最少的样本数,如果某叶子节点数目小于样本数,则会和兄弟节点一起被剪枝。 默认是1,可以输入最少的样本数的整数,或者最少样本数占样本总数的百分比。如果样本量不大,不需要管这个值。如果样本量数量级非常大,则推荐增大这个值。之前的10万样本项目使用min_samples_leaf的值为5,仅供参考。
  • max_depth
    • 决策树最大深度
    • 决策树的最大深度,默认可以不输入,如果不输入的话,决策树在建立子树的时候不会限制子树的深度。一般来说,数据少或者特征少的时候可以不管这个值。如果模型样本量多,特征也多的情况下,推荐限制这个最大深度,具体的取值取决于数据的分布。常用的可以取值10-100之间
  • random_state
    • 随机数种子

三、泰坦尼克号乘客生存预测案例

数据源:

http://biostat.mc.vanderbilt.edu/wiki/pub/Main/DataSets/titanic.txt​biostat.mc.vanderbilt.edu

我们提取的数据集中的特征是票的类别,存活,乘坐班,年龄,登陆,home.dest,房间,票,船和性别。

数据大小(1313, 11)

# 导入模块
import pandas as pd
import numpy as np
from sklearn.feature_extraction import DictVectorizer
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier, export_graphviz# 读取数据
titanic = pd.read_csv("./data/data.txt") 

数据基本处理:

选取“pclace”“age”"sex"作为特征进行训练,且“age”有缺失值,进行相应处理;分类数据进行one-hot编码

# 2. 数据基本处理
# 2.1 确定特征值、目标值
X = titanic[["pclass", "age", "sex"]]
y = titanic["survived"]
# 2.2 缺失值处理
X["age"].fillna(X["age"].mean(), inplace=True)
# 2.2 缺失值处理
X["age"].fillna(X["age"].mean(), inplace=True)  # 缺失值使用平均值进行代替
# 数据集划分
x_train, x_test, y_train, y_test = train_test_split(X, y, random_state=2)# 特征工程(字典特征提取)
x_train = x_train.to_dict(orient="records")
x_test = x_test.to_dict(orient="records")transfer = DictVectorizer(sparse=False)

分类变量one-hot编码前

one-hot编码后,方便进行数据的处理,如下

# 机器学习(决策树)
estimator = DecisionTreeClassifier(max_depth=5)  # 设置最大深度为5
estimator.fit(x_train, y_train)# 模型评估
y_pre = estimator.predict(x_test)
print("预测结果:", y_pre)estimator.score(x_test, y_test)

# 可视化  (生成dot文件)
export_graphviz(estimator, out_file="./data/tree.dot", feature_names=['age', 'pclass=1st', 'pclass=2nd', 'pclass=3rd', '女性', '男性'])

可以使用专门的graphviz软件将生成的dot文件进行可视化

点击可获得源代码(记得点个赞呦Thanks♪(・ω・)ノ)

链接:

https://pan.baidu.com/s/1Pdhl9NcLsYN-YKgd1aLY-Q​pan.baidu.com

密码:89sf


待更新...

gini系数 决策树_案例7:机器学习--使用决策树实现泰坦尼克号乘客生存率预测...相关推荐

  1. 泰坦尼克号数据_数据分析-泰坦尼克号乘客生存率预测

    项目背景 目标 预测一个乘客是否能够在泰坦尼克号事件中幸存. 概述 1912年4月15日,泰坦尼克号在首次航行期间撞上冰山后沉没,船上共有2224名人员(包括乘客和机组人员),共有1502人不幸遇难. ...

  2. 机器学习决策树算法泰坦尼克号乘客生存预测

    目录 1 决策树算法api 2 泰坦尼克号乘客案例背景 2.1 步骤分析 2.2 代码实现 2.3 决策树可视化 2.3.1 保存树的结构到dot文件 2.3.2 网站显示结构 3 决策树总结 4 小 ...

  3. 逻辑回归和决策树_结合逻辑回归和决策树

    逻辑回归和决策树 Logistic regression is one of the most used machine learning techniques. Its main advantage ...

  4. id3决策树_信息熵、信息增益和决策树(ID3算法)

    决策树算法: 优点:计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,可以处理不相关的特征数据. 缺点:可能会产生过度匹配问题. 适用数据类型:数值型和标称型. 算法原理: 决策树是一个简单的为 ...

  5. 数据分析实战之决策树(泰坦尼克号乘客生存预测)

    本文利用已给特征属性和存活与否标签的训练集和只包含特征信息测试集数据,通过决策树模型来预测测试集数据乘客的生存情况 数据集来源为https://github.com/cystanford/Titani ...

  6. python数据挖掘项目实战 预测_Python机器学习/数据挖掘项目实战 泰坦尼克号Titanic生存预测 Kaggle入门比赛...

    # Titanic : Machine Learning from DisasterQuestion要求你建立一个预测模型来回答这个问题:"什么样的人更有可能生存?"使用乘客数据 ...

  7. 周志华机器学习:决策树

    决策树 文章目录 决策树 参考 基本流程 划分选择 信息增益 决策树的生成--ID3,及其问题 增益率 决策树生成 --C4.5,及其问题 剪枝处理 预剪枝和后剪枝 统计学习方法中的剪枝 CART算法 ...

  8. 机器学习笔记-决策树

    决策树(Decision Tree)简介 决策树是一种分类和回归算法.比较适合分析离散数据.如果是连续数据要先转成离散数据在做分析. 决策树简单例子 根据以上表格可以根据年龄为根节点画出的决策树如下所 ...

  9. 机器学习实战:Kaggle泰坦尼克号生存预测 利用决策树进行预测

    决策树分类的应用场景非常广泛,在各行各业都有应用,比如在金融行业可以用决策树做贷款风险评估,医疗行业可以用决策树生成辅助诊断,电商行业可以用决策树对销售额进行预测等. 我们利用 sklearn 工具中 ...

最新文章

  1. android Intent onNewIntent 什么时候调用
  2. 聊聊架构设计做些什么来谈如何成为架构师
  3. PDF.js如何添加放大缩小的功能,转换成图片应该如何实现?
  4. hdu1290献给杭电五十周年校庆的礼物
  5. struts2 拦截器_Struts2令牌拦截器示例
  6. SAStruts中文文档
  7. c语言入门视频教程-
  8. 设计模式-外观模式(家庭影院你值得拥有)
  9. KEIL-51单片机实现自定义bootloader,用于程序更新 研究
  10. python 合并word文件_python读取word合并单元格
  11. Linux内核的下载和解压
  12. 转:solr 从数据库导入数据,全量索引和增量索引(实例配置原理)
  13. 雅虎问答将正式关站!
  14. 罗默模型——对电子商务发展的理论分析
  15. 项目管理的科学与艺术
  16. 基于asp.net汽修系统仓库管理系统#毕业设计#课程设计
  17. 达芬奇 17.1.1为苹果 M1 Mac 添加 H.264 10bit 硬件加速解码支持
  18. 从红魔手机RNG合作看手机创新,努比亚创新探索精神值得学习
  19. ES5 —— reduce 方法
  20. perl-全面编译(转)

热门文章

  1. php 获取所有子目录名,php读取目录及子目录下所有文件名的方法,_PHP教程
  2. cf1月超级翻盘_CF1月超级翻牌活动地址 2020年CF超级翻盘活动全攻略
  3. java计算两列数据差_DAX计算列基于其他表中的两列
  4. Myeclipse包变成文件夹
  5. matlab做信号实验需要安装那些模块_无人机基于Matlab/Simulink的模型开发(连载一)...
  6. vue ---- 组件
  7. mysql 等于_mysql 不等于 符号写法
  8. php 去掉无关数据,php 读取 mysql 表中的double数据,去掉多余的0
  9. python导入图片语法_MarkDown添加图片的三种方式
  10. 三菱plc 毕设_PLC漏型和源型输入有何不同?