首先来看二者的基本定义:

⎧⎩⎨⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪H(X)=−∑k=1KpklnpkGini(X)=∑k=1Kpk(1−pk)

\left\{ \begin{split} &H(X)=-\sum_{k=1}^Kp_k\ln p_k\\ &\text{Gini}(X)=\sum_{k=1}^Kp_k(1-p_k) \end{split} \right.

将 f(x)=−lnxf(x)=-\ln x 在 x=1x=1 处进行一阶泰勒展开(忽略高阶无穷小):

f(x)===f(x0)+f′(x0)(x−x0)+o(⋅)f(1)+f′(1)(x−1)+o(⋅)1−x

\begin{split} f(x)=&f(x_0)+f'(x_0)(x-x_0)+o(\cdot)\\ =&f(1)+f'(1)(x-1)+o(\cdot)\\ =&1-x \end{split}

因此,熵可近似转化为:

H(X)=−∑k=1Kpklnpk=∑k=1Kpk(−lnpk)≃∑k=1Kpk(1−pk)=Gini(X)

\begin{split} H(X)=&-\sum_{k=1}^Kp_k\ln p_k=\sum_{k=1}^Kp_k\left(-\ln p_k\right)\\ &\simeq\sum_{k=1}^Kp_k\left(1-p_k\right)=\text{Gini}(X) \end{split}

Gini 系数与熵的关系相关推荐

  1. 一文理清楚:熵,条件熵,KL散度(相对熵),交叉熵,联合熵,信息增益,信息增益比,GINI系数

    熵 熵是表示随机变量不确定性的度量. 设 X X X是一个有N个取值有限的随机变量,其概率分布为: P ( X = i ) = p i , i = 1 , 2... N P(X=i)=p_i , i= ...

  2. 树类算法之---决策树Cart树Gini系数就算原理。

    1.介绍 ID3树与CART树的区别: ID3算法中,选择的是信息增益来进行特征选择,信息增益大的特征优先选择. 而在C4.5中,选择的是信息增益比来选择特征,以减少信息增益容易选择特征值多的特征的缺 ...

  3. 我对洛伦兹曲线与GINI系数的一点看法

    数据分析有时需要针对单变量进行数据描述,有时需要针对多变量之间的关系进行数据描述,洛伦兹曲线就是为描述多变量间关系而服务的.洛伦兹曲线即累计频数分布曲线,用于分析社会财富.土地.工资分配是否公平的问题 ...

  4. 分类模型的ROC曲线、AUC值、GINI系数、Lift、Gain、KS指标分别是什么?计算公式是什么?有什么意义?

    分类模型的ROC曲线.AUC值.GINI系数.Lift.Gain.KS指标分别是什么?计算公式是什么?有什么意义? 目录

  5. 大白话5分钟带你走进人工智能-第二十四节决策树系列之分裂流程和Gini系数评估(3)...

     第二十四节决策树系列之分裂流程和Gini系数评估(3) 上一节中我们讲解了决策树的数学表达形式,本节的话我们讲解决策树的分裂流程以及分裂条件的评估.我们基于决策树的递归表达式上:           ...

  6. KS值和GINI系数

    有效性指标中的区分能力指标: KS(Kolmogorov-Smirnov):KS用于模型风险区分能力进行评估,  指标衡量的是好坏样本累计分部之间的差值.  好坏样本累计差异越大,KS指标越大,那么模 ...

  7. 【模型 区分度】神秘的KS值和GINI系数

    有效性指标中的区分能力指标: KS(Kolmogorov-Smirnov):KS用于模型风险区分能力进行评估, 指标衡量的是好坏样本累计分部之间的差值. 好坏样本累计差异越大,KS指标越大,那么模型的 ...

  8. 熵速率定义与各类熵的关系

    本专栏包含信息论与编码的核心知识,按知识点组织,可作为教学或学习的参考.markdown版本已归档至[Github仓库:information-theory],需要的朋友们自取.或者公众号[AISha ...

  9. Theil指数和Gini系数在经济空间差异中的作用

    目录 一.Theil指数 1.相关定义 2.相关公式 3.举个简单的例子. 二.Gini系数 1.Gini公式 2.Gini系数的取值解读 一.Theil指数 1.相关定义 Theil 指数又称锡尔指 ...

最新文章

  1. 虚拟摄像头 安卓版_林俊杰 ft. M.E.,联同视效大厂数字王国加码虚拟偶像
  2. noip2017考前基础复习——数论数学
  3. bread是可数还是不可数_小学英语语法名词 不可数名词详解
  4. 软件工程第三次作业-功能测试
  5. mysql mydump还原_用mydump对所有数据库进行备份,还原具体案例
  6. (转)Hibernate框架基础——多对多关联关系映射
  7. 网页端对接linux发起cc,(cc)实现Linux系统调用劫持
  8. 一步一步学Silverlight 2系列(2):基本控件_转载
  9. eclipse环境变量的配置
  10. 读取excel数据,根据word模板生成word文件。【python】【word vba】两种方法
  11. Android反射系统截图Api
  12. BaaS、FaaS、Serverless都是什么馅儿?
  13. OS学习笔记-7(清华大学慕课)实验二物理内存管理
  14. 小白月赛26:E牛牛走迷宫(BFS)
  15. 给宝宝补钙的健康新钙念
  16. 【漏洞复现】永恒之蓝 MS17-010 远程溢出漏洞(CVE-2017-0143)
  17. 【202203-4】通信管理系统
  18. 【NLP】关键词共现/属性共现矩阵
  19. ios 分段 判断 小说阅读器_《iOS 小说阅读器-最核心功能txt的读取》
  20. UTM设备代表产品介绍

热门文章

  1. Accept是又产生一个Socket端口吗?
  2. 55个javascript经典用法
  3. mysql 临时表 主键_MySQL临时表
  4. Hadoop不同版本数据传输distcp问题设置
  5. Python之面向对象 私有属性和私有方法
  6. Java服务器多站点,java客户端web服务器连接到多个web服务器
  7. java Iterator的next()、previous()、set()究竟指向哪里?
  8. 计算机信息管理系统设计原理探究,计算机信息管理系统设计原理探究
  9. 计算机视觉领域稍微容易中的期刊(第一版)
  10. Matlab常用快捷键