机器学习——基尼指数

定义：基尼指数（基尼不纯度）：表示在样本集合中一个随机选中的样本被分错的概率。

    注意： Gini指数越小表示集合中被选中的样本被分错的概率越小，也就是说集合的纯度越高，反之，集合越不纯。

即基尼指数（基尼不纯度）= 样本被选中的概率 * 样本被分错的概率

基尼系数的性质与信息熵一样：度量随机变量的不确定度的大小；
G 越大，数据的不确定性越高；
G 越小，数据的不确定性越低；
G = 0，数据集中的所有样本都是同一类别；

代码

def cal_gini_index(data, label_len):''':param data: (list)数据集:param label_len:  (int)数据集中每一行的标签数:return: gini (float)Gini指数'''total_asmple = len(data)if len(data) == 0:return 0for a in range(label_len):label_counts = label_uniq_cnt(data,a)  # 统计数据集中不同标签的个数print(label_counts)# 计算数据集的Gini指数gini = 0for label in label_counts:gini = gini + pow(label_counts[label], 2)gini = 1 - float(gini) / pow(total_asmple, 2)print(gini)def label_uniq_cnt(data,a):'''统计数据集中不同标签的个数:param data: (list)原始数据:param a: 每一种标签的下标号:return: label_uniq_cnts(int)样本中的标签的个数,统计的是每一种类各个取值的数量，把每一个种类的各种取值的数量放在字典中存储返回'''label_uniq_cnts = {}for x in data:label = x[a]  # 取得每一个样本的类标签label#print(label)if label not in label_uniq_cnts:label_uniq_cnts[label] = 0label_uniq_cnts[label] += 1return label_uniq_cntsif __name__ == '__main__':data = [('用', '有', '是'), ('用', '有', '是'), ('用', '无', '否'), ('不用', '有', '否'), ('不用', '有', '否')]cal_gini_index(data,len(data[0]))

结果

{'用': 3, '不用': 2}
0.48
{'有': 4, '无': 1}
0.31999999999999995
{'是': 2, '否': 3}
0.48

这样得到某一行数据被随机分配到错误结果的总概率。这一概率越高，说明对数据的拆分越不合理。

机器学习——基尼指数相关推荐

【机器学习】采用信息增益、信息增益率、基尼指数来建造决策树。
目录一.创建数据集二.构造决策树(诊断是否复发乳腺癌) 1.信息增益生成决策树 (ID3算法) 信息熵信息增益(ID3算法) 2.信息增益率决策树(C4.5) 3.基尼指数(CART算法 - 分 ...
机器学习与scikit-learn-13]：算法 - 分类的本质与样本分布的离散程度的指标：纯度、信息熵、基尼指数.
作者主页(文火冰糖的硅基工坊):文火冰糖(王文兵)的博客_文火冰糖的硅基工坊_CSDN博客本文网址: 目录第1章分类问题的本质 1.1 多特征样本的本质 1.2 分类的本质第2章纯度(pu ...
基尼指数——基尼系数是指国际上通用的、用以衡量一个国家或地区居民收入差距的常用指标。基尼系数介于0-1之间，基尼系数越大，表示不平等程度越高。...
基尼系数是指国际上通用的.用以衡量一个国家或地区居民收入差距的常用指标.基尼系数介于0-1之间,基尼系数越大,表示不平等程度越高. 收入基尼系数其具体含义是指,在全部居民收入中,用于进行不平均分配的 ...
决策树（信息熵、增益率、基尼指数）
目录前言一.决策树是什么? 二.实验过程 1.选择数据集中各个决策属性的优先级 1.1信息熵 1.2增益率 1.3基尼指数 2.决策树的构造 2.1创建决策树: 2.2准备数据: 2.3.读取和保 ...
AI基础：信息熵、信息增益、信息增益率、基尼指数
给实习生聊到决策树.GBDT,有几个概念这里再用易懂的方式解释下文章目录信息熵条件熵信息增益信息增益率基尼指数信息熵是决策树的基础信息增益-ID3算法构建决策树信息增益率-C4.5算 ...
决策树信息增益|信息增益比率|基尼指数实例
今天以周志华老师的西瓜为例,复盘一下三种决策树算法. 文章目录信息增益(ID3算法) 信息增益比率(C4.5算法) 基尼指数(CART算法) 数据: 信息增益(ID3算法) 信息熵表示信息的混乱程度 ...
决策树之基尼指数理解
基尼指数和信息熵都是用来描述系统混乱度的量数学形式不一样,干的事是一样的不纯度(impurity)--GINI系数:(不纯度就是混乱度) 公式例子(与信息熵干的是一件事) 决策树模型理解二. ...
熵（Entropy）、信息熵增益、信息熵增率和基尼（Gini）指数
文章中的这些概念为衡量特征(属性)选择的方法,特征选择在于选取对训练数据具有分类能力的特征,提高决策树学习的效率,特征选择是决定用哪个特征来划分特征空间. 文章目录信息熵(information e ...
机器学习：信息熵，基尼系数，条件熵，条件基尼系数，信息增益，信息增益比，基尼增益，决策树代码实现（一）
文章目录初始化,涉及到使用的变量: 信息熵定义公式,经验公式代码: 基尼系数定义公式,经验公式代码: 条件熵,条件基尼系数条件熵定义公式,经验公式条件基尼系数定义公式,经验公式代码: ...

机器学习——基尼指数

代码

结果

机器学习——基尼指数相关推荐

最新文章

热门文章