gini系数决策树_案例7：机器学习--使用决策树实现泰坦尼克号乘客生存率预测...

一、决策树简介

1.1 什么是决策树？

决策树：是一种树形结构，其中每个内部节点表示一个属性上的判断，每个分支代表一个判断结果的输出，最后每个叶节点代表一种分类结果，本质是一颗由多个判断节点组成的树。

举个例子说明

好多男生不理解的是为什么把年龄放在最上面判断？？？而不是长相呢？

1.2 决策树的划分依据

熵 Entropy是“混乱”程度的量度。系统越有序，熵值越低；系统越混乱或者分散，熵值越高。

信息理论：

1、从信息的完整性上进行的描述:

当系统的有序状态一致时，**数据越集中的地方熵值越小，数据越分散的地方熵值越大。

2、从信息的有序性上进行的描述:

当数据量一致时，系统越有序，熵值越低；系统越混乱或者分散，熵值越高。

1.2.1 划分依据 1 -- 信息增益

信息增益：以某特征划分数据集前后的熵的差值。熵可以表示样本集合的不确定性，熵越大，样本的不确定性就越大。因此可以使用划分前后集合熵的差值来衡量使用当前特征对于样本集合D划分效果的好坏。（可以理解为信息不确定性减少的程度）

信息增益 = entroy(前) - entroy(后)

1.2.2 划分依据 2 -- 信息增益率

增益率：增益比率度量是用前面的增益度量Gain(S，A)和所分离信息度量SplitInformation(如上例的性别，活跃度等)的比值来共同定义的。

1.2.3 划分依据 3 -- 基尼值和基尼指数

基尼值Gini（D）：从数据集D中随机抽取两个样本，其类别标记不一致的概率。故，Gini（D）值越小，数据集D的纯度越高。

基尼指数Gini_index（D）：一般，选择使划分后基尼系数最小的属性作为最优化分属性。

1.3 常见决策树类型

1.3.1 ID3算法

存在的缺点

ID3算法在选择根节点和各内部节点中的分支属性时，采用信息增益作为评价标准。信息增益的缺点是倾向于选择取值较多的属性，在有些情况下这类属性可能不会提供太多有价值的信息.
ID3算法只能对描述属性为离散型属性的数据集构造决策树。

1.3.2 C4.5算法

算法特点

用信息增益率来选择属性
可以处理连续数值型属性
采用了一种后剪枝方法
对于缺失值的处理

优点：

产生的分类规则易于理解，准确率较高。

缺点：

在构造树的过程中，需要对数据集进行多次的顺序扫描和排序，因而导致算法的低效。
此外，C4.5只适合于能够驻留于内存的数据集，当训练集大得无法在内存容纳时程序无法运行。

1.3.3 CART算法

CART算法相比C4.5算法的分类方法，采用了简化的二叉树模型，同时特征选择采用了近似的基尼系数来简化计算。
C4.5不一定是二叉树，但CART一定是二叉树。

二、决策树API和常用参数

class sklearn.tree.DecisionTreeClassifier(criterion=’gini’, max_depth=None,random_state=None)

criterion
- 特征选择标准
- "gini"或者"entropy"，前者代表基尼系数，后者代表信息增益。一默认"gini"，即CART算法。
min_samples_split
- 内部节点再划分所需最小样本数
- 这个值限制了子树继续划分的条件，如果某节点的样本数少于min_samples_split，则不会继续再尝试选择最优特征来进行划分。默认是2.如果样本量不大，不需要管这个值。如果样本量数量级非常大，则推荐增大这个值。我之前的一个项目例子，有大概10万样本，建立决策树时，我选择了min_samples_split=10。可以作为参考。
min_samples_leaf
- 叶子节点最少样本数
- 这个值限制了叶子节点最少的样本数，如果某叶子节点数目小于样本数，则会和兄弟节点一起被剪枝。默认是1,可以输入最少的样本数的整数，或者最少样本数占样本总数的百分比。如果样本量不大，不需要管这个值。如果样本量数量级非常大，则推荐增大这个值。之前的10万样本项目使用min_samples_leaf的值为5，仅供参考。
max_depth
- 决策树最大深度
- 决策树的最大深度，默认可以不输入，如果不输入的话，决策树在建立子树的时候不会限制子树的深度。一般来说，数据少或者特征少的时候可以不管这个值。如果模型样本量多，特征也多的情况下，推荐限制这个最大深度，具体的取值取决于数据的分布。常用的可以取值10-100之间
random_state
- 随机数种子

三、泰坦尼克号乘客生存预测案例

数据源：

http://biostat.mc.vanderbilt.edu/wiki/pub/Main/DataSets/titanic.txtbiostat.mc.vanderbilt.edu

我们提取的数据集中的特征是票的类别，存活，乘坐班，年龄，登陆，home.dest，房间，票，船和性别。

数据大小（1313， 11）

# 导入模块
import pandas as pd
import numpy as np
from sklearn.feature_extraction import DictVectorizer
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier, export_graphviz# 读取数据
titanic = pd.read_csv("./data/data.txt")

数据基本处理：

选取“pclace”“age”"sex"作为特征进行训练，且“age”有缺失值，进行相应处理；分类数据进行one-hot编码

# 2. 数据基本处理
# 2.1 确定特征值、目标值
X = titanic[["pclass", "age", "sex"]]
y = titanic["survived"]
# 2.2 缺失值处理
X["age"].fillna(X["age"].mean(), inplace=True)
# 2.2 缺失值处理
X["age"].fillna(X["age"].mean(), inplace=True)  # 缺失值使用平均值进行代替
# 数据集划分
x_train, x_test, y_train, y_test = train_test_split(X, y, random_state=2)# 特征工程（字典特征提取）
x_train = x_train.to_dict(orient="records")
x_test = x_test.to_dict(orient="records")transfer = DictVectorizer(sparse=False)

分类变量one-hot编码前

one-hot编码后，方便进行数据的处理，如下

# 机器学习（决策树）
estimator = DecisionTreeClassifier(max_depth=5)  # 设置最大深度为5
estimator.fit(x_train, y_train)# 模型评估
y_pre = estimator.predict(x_test)
print("预测结果:", y_pre)estimator.score(x_test, y_test)

# 可视化  （生成dot文件）
export_graphviz(estimator, out_file="./data/tree.dot", feature_names=['age', 'pclass=1st', 'pclass=2nd', 'pclass=3rd', '女性', '男性'])

可以使用专门的graphviz软件将生成的dot文件进行可视化

点击可获得源代码（记得点个赞呦Thanks♪(･ω･)ﾉ）

链接：

https://pan.baidu.com/s/1Pdhl9NcLsYN-YKgd1aLY-Qpan.baidu.com

密码：89sf

待更新...