熵权法

  熵权法是一种客观赋权方法。(客观 = 数据本身就可以告诉我们权重)

  依据的原理:指标的变异程度越小,所反映的信息量也越少,其对应的权值也应该越低。

  本文借鉴了数学建模清风老师的课件与思路,如果大家发现文章中有不正确的地方,欢迎大家在评论区留言,也可以点击查看右侧链接查看清风老师视频讲解:清风数学建模:https://www.bilibili.com/video/BV1DW411s7wi


文章目录

  • 熵权法
    • 一、方法介绍
    • 二、熵权法的计算步骤
    • 三、模型扩展 (★)
    • 四、模型总结

一、方法介绍

  熵权法就是根据一项指标的变化程度来分配权重的,举个例子:小张和小王是两个高中生,小张学习好回回期末考满分,小王学习不好考试常常不及格。在一次考试中,小张还是考了满分,而小王也考了满分。那就很不一样了,小王这里包含的信息就非常大,所对应的权重也就高一些。

  上面的小例子告诉我们:越有可能发生的事情,信息量越少。越不可能发生的事情,信息量就越多。其中我们认为 概率 就是衡量事情发生的可能性大小的指标。

  那么把 信息量 用字母 I\bf II 表示,概率 用 p\bf pp 表示,那么我们可以将它们建立一个函数关系:

  那么,假设 x 表示事件 X 可能发生的某种情况,p(x)表示这种情况发生的概率情况如上图所示,该图像可以用对数函数进行拟合,那么最终我们可以定义:I(x)=−ln⁡(p(x))I(x) = -\ln(p(x))I(x)=−ln(p(x)),因为 0≤p(x)≤10 ≤ p(x) ≤ 10≤p(x)≤1,所以 I(x)≥0I(x) ≥ 0I(x)≥0。 接下来引入正题:


信息熵的定义

  假设 x 表示事件 X 可能发生的某种情况,p(x) 表示这种情况发生的概率我们可以定义:I(x)=−ln⁡(p(x))I(x)=-\ln(p(x))I(x)=−ln(p(x)) ,因为0≤p(x)≤10≤p(x)≤10≤p(x)≤1 ,所以I(x)≥0I(x)≥0I(x)≥0 。 如果事件 X 可能发生的情况分别为: x1,x2,⋯,xnx_1,x_2,\cdots,x_nx1​,x2​,⋯,xn​ ,那么我们可以定义事件 XXX 的信息熵为:

H(X)=∑i=1n[p(xi)I(xi)]=−∑i=1n[p(xi)ln⁡(p(xi))]H(X)=\sum_{i=1}^{n}[p(x_i)I(x_i)]=-\sum_{i=1}^{n}[p(x_i)\ln(p(x_i))] H(X)=i=1∑n​[p(xi​)I(xi​)]=−i=1∑n​[p(xi​)ln(p(xi​))]

那么从上面的公式可以看出,信息上的本质就是对信息量的期望值。

可以证明的是:p(x1)=p(x1)=⋯=p(xn)=1/n\ p(x_1)=p(x_1)=\cdots = p(x_n) = {1}/{n} p(x1​)=p(x1​)=⋯=p(xn​)=1/n 时,H(x)H(x)H(x) 取最大值,此时 H(x)=ln⁡(n)H(x)=\ln(n)H(x)=ln(n)。 (n表示事件发生情况的总数)


二、熵权法的计算步骤

熵权法的计算步骤大致分为以下三步:

  1. 判断输入的矩阵中是否存在负数,如果有则要重新标准化到非负区间(后面计算概率时需要保证每一个元素为非负数)。
  2. 计算第 j 项指标下第 i 个样本所占的比重,并将其看作相对熵计算中用到的概率。
  3. 计算每个指标的信息熵,并计算信息效用值,并归一化得到每个指标的熵权。

1. 判断输入的矩阵中是否存在负数,如果有则要重新标准化到非负区间(后面计算概率时需要保证每一个元素为非负数)。

假设有nnn个要评价的对象,mmm个评价指标(已经正向化了)构成的正向化矩阵如下:

X=[x11x12⋯x1mx21x22⋯x2m⋮⋮⋱⋮xn1xn2⋯xnm]X= \begin{bmatrix} x_{11} & x_{12} & \cdots &x_{1m} \\ x_{21}& x_{22} & \cdots &x_{2m} \\ \vdots & \vdots & \ddots & \vdots \\ x_{n1}& x_{n2} & \cdots &x_{nm} \end{bmatrix} X=⎣⎢⎢⎢⎡​x11​x21​⋮xn1​​x12​x22​⋮xn2​​⋯⋯⋱⋯​x1m​x2m​⋮xnm​​⎦⎥⎥⎥⎤​

设标准化矩阵为 ZZZ,ZZZ 中元素记为 zijz_{ij}zij​:

zij=xij∑i=1nxij2z_{ij}=\frac{x_{ij}}{\sqrt{\displaystyle\sum_{i=1}^{n}{x_{ij}^2}}} zij​=i=1∑n​xij2​​xij​​

判断 ZZZ 矩阵中是否存在着负数,如果存在的话,需要对 XXX 使用另一种标准化方法对矩阵 XXX 进行一次标准化得到 ZZZ 矩阵,其标准化的公式为:

zij=xij−min{x1j,x2j,⋯,xnj}max{x1j,x2j,⋯,xnj}−min{x1j,x2j,⋯,xnj}z_{ij}=\frac{x_{ij} - min\lbrace x_{1j}, x_{2j},\cdots, x_{nj}\rbrace}{max\lbrace x_{1j}, x_{2j},\cdots, x_{nj} \rbrace - min\lbrace x_{1j}, x_{2j},\cdots, x_{nj} \rbrace} zij​=max{x1j​,x2j​,⋯,xnj​}−min{x1j​,x2j​,⋯,xnj​}xij​−min{x1j​,x2j​,⋯,xnj​}​

这样可以保证 zijz_{ij}zij​ 在 [0,1] 区间,没有负数。


2. 计算第 j 项指标下第 i 个样本所占的比重,并将其看作相对熵计算中用到的概率。

假设有 nnn 个要评价的对象,mmm 个评价指标,且经过了上一步处理得到的非负矩阵为:

Z=[z11z12⋯z1mz21z22⋯z2m⋮⋮⋱⋮zn1zn2⋯znm]Z= \begin{bmatrix} z_{11} & z_{12} & \cdots &z_{1m} \\ z_{21}& z_{22} & \cdots &z_{2m} \\ \vdots & \vdots & \ddots & \vdots \\ z_{n1}& z_{n2} & \cdots &z_{nm} \end{bmatrix} Z=⎣⎢⎢⎢⎡​z11​z21​⋮zn1​​z12​z22​⋮zn2​​⋯⋯⋱⋯​z1m​z2m​⋮znm​​⎦⎥⎥⎥⎤​

计算概率矩阵 PPP,其中 PPP 中每一个元素 pijp_{ij}pij​,的计算公式如下:

pij=zij∑i=1nzijp_{ij}=\frac{z_{ij}}{\displaystyle\sum_{i=1}^{n}{z_{ij}}} pij​=i=1∑n​zij​zij​​

保证每一列的加和为1,即每个指标所对应的概率和为1。


3. 计算每个指标的信息熵,并计算信息效用值,并归一化得到每个指标的熵权。

信息熵的计算:
对于第 jjj 个指标而言,其信息嫡的计算公式为:

ej=−1ln⁡n∑i=1npijln⁡(pij),(j=1,2,⋯,m)e_j=-\frac{1}{\ln n}\sum_{i=1}^{n}{p_{ij}}\ln(p_{ij}), \quad(j=1,2,\cdots,m) ej​=−lnn1​i=1∑n​pij​ln(pij​),(j=1,2,⋯,m)

注意:这里如果说 pijp_{ij}pij​ 为0,那么就需要指定 ln(0)=0ln(0) = 0ln(0)=0 。


这里要说明两个问题:
1. 为什么这里要除以 ln⁡(n)\ln(n)ln(n) 这个常数?
在前面说过 p(x1)=p(x2)=...=p(xn)=1/np(x_1)=p(x_2)=...=p(x_n)=1/np(x1​)=p(x2​)=...=p(xn​)=1/n 时,H(x)H(x)H(x) 取最大值为 ln⁡(n)\ln(n)ln(n),这里除以 ln⁡(n)\ln(n)ln(n) 能够使得信息嫡的始终位于 [0,1] 区间上面。

2. ej 越大,即第 j 个指标的信息嫡越大,表明第 j 个指标的信息越多还是越少?
答案是越少。当 p1j=p2j=⋯=pnjp_{1j} = p_{2j} =\cdots=p_{nj}p1j​=p2j​=⋯=pnj​ 时,eje_jej​ 取到最大值 1 。但是因为 pij=zij/∑i=1nzijp_{ij} = z_{ij}/\displaystyle\sum_{i=1}^{n}z_{ij}pij​=zij​/i=1∑n​zij​ ,所以 z1j=z2j=⋯=znjz_{1j} = z_{2j} =\cdots= z_{nj}z1j​=z2j​=⋯=znj​,即 所有样本的这个指标值都相同。 指标相同意味着这个指标的数据没有变化,也就是 信息少! 因此需要将其倒转,即计算信息效用值。

清风数学建模学习笔记——熵权法(客观赋权法)相关推荐

  1. 清风数学建模学习笔记——灰色关联分析(GRA)详细解读与案例分析

    灰色关联分析   灰色关联分析的基本思想 是根据序列曲线几何形状的相似程度来判断其联系是否紧密,曲线越接近,相应序列之间的关联度就越大,反之则越小.   此方法可用于 进行系统分析,也可应用于对问题 ...

  2. 清风数学建模学习笔记——K-means聚类模型详解及SPSS操作流程

    聚类模型   聚类模型,就是将样本划分为有类似的对象组成的多个类的过程.聚类后,我们可以更加准确的在每个类中单独使用统计模型进行估计.分析或预测:也可以探究不同类之间的相关性和主要差异.此外,聚类与分 ...

  3. 清风数学建模学习笔记——系统(层次)聚类原理详解及案例分析

    系统聚类   系统聚类的合并算法通过计算两类数据点间的距离,对最为接近的两类数据点进行组合,并反复迭代这一过程,直到将所有数据点合成一类,并生成聚类谱系图.此外,系统聚类可以解决簇数 K 的取值问题, ...

  4. 清风数学建模学习笔记——灰色预测模型推导及原理详解

    灰色预测模型   灰色预测是对既含有已知信息又含有不确定信息的系统进行预测,就是对在一定范围内变化的.与时间有关的灰色过程进行预测.   灰色预测对原始数据进行生成处理来寻找系统变动的规律,并生成有较 ...

  5. 清风数学建模学习笔记——主成分分析(PCA)原理详解及案例分析

    主成分分析   本文将介绍主成分分析(PCA),主成分分析是一种降维算法,它能将多个指标转换为少数几个主成分,这些主成分是原始变量的线性组合,且彼此之间互不相关,其能反映出原始数据的大部分信息. 一般 ...

  6. 清风数学建模学习笔记——应用matlab实现分段三次埃尔米特(Hermite)插值与三次样条插值

    插值算法   数模比赛中,常常需要根据已知的函数点进行数据.模型的处理和分析,而有时候现有的数据是极少的,不足以支撑分析的进行,这时就需要使用一些数学的方法,模拟产生一些新的但又比较靠谱的值来满足需求 ...

  7. 数学建模学习笔记之评价问题聚类分析法

    数学建模学习笔记之评价问题聚类分析法 物以类聚.人以群分. 聚类分析是一个很大的概念,显然根据分类的依据不同会出现很多很多聚类的方法.例如K-Means .Sequential Leader.Mode ...

  8. 【数学建模学习笔记【集训十天】之第六天】

    数模学习目录 Matplotlib 学习 Matplotlib简介 Matplotlib 散点图 运行效果如下: Matplotlib Pyplot 运行效果如下: 关于plot() 运行效果如下: ...

  9. 数学建模学习笔记(2.3)lingo软件求解线性规划问题

    数学建模学习笔记(2.3)lingo软件求解线性规划问题 lingo软件的优势在于体积小,专注于解决优化问题 且编程语言通俗易懂,没有门槛 对于刚刚接触数学建模同学比较友善 当然对于已经参与建模很久的 ...

  10. 数学建模学习笔记(1)数学模型的特点和分类

    数学建模学习笔记(1)数学模型的特点和分类 ps:学习的教材为姜启源著的<数学模型(第四版)> 领取数模资料和更多内容请关注公众号:拾壹纪元 传送门: 线性规划(LP)问题 https:/ ...

最新文章

  1. 总结编程语言的空语句
  2. 三、开发调试应用程序
  3. 学习笔记----周志华《机器学习》第五章(神经网络)(二)
  4. 设置Web页面试用手机浏览器(iphone)
  5. win8 任务栏不合并隐藏标题
  6. cad快捷键文件路径_你知道CAD图纸如何才能画得更快嘛?CAD快速绘图技巧!
  7. nd4j 向量_ND4J的基本操作
  8. Spark RDD概念学习系列之什么是Pair RDD
  9. vb阶乘计算机代码,速求100的阶乘的代码
  10. 刀片系统服务器优点,刀片服务器是什么?介绍ibm刀片服务器优点
  11. linux木马查杀工具,【Kali】linux木马查杀
  12. 网约护士来了?相关App不合规 两大安全问题最受关注
  13. win10系统怎么去除桌面图标的小箭头
  14. stanza和DBPedia的安装与使用
  15. ue4打包h5_ue4学习之嵌入H5网页(web Brower)
  16. 学习PHP——高级(总)
  17. hiveserver2 和beeline_Beeline连接Hiveserver2错误
  18. 大数据蓝皮书:解读中国大数据发展十大趋势
  19. prometheus-简介
  20. sku设计mysql_如何设计SKU表结构

热门文章

  1. 操作系统系列常见八股文
  2. 计算机无法打印 重启又好了,打印机显示通讯错误,不能打印,但电脑重启后又好了!这是为什么?...
  3. java 提交mac地址栏_Mac系统快捷键大全 - 米扑博客
  4. primordials is not defined错误,正确的解决方案 亲测 完美 好用
  5. 程序员常用官网和工具站
  6. 各主板黑苹果dsdt补丁_关于B75主板的DSDT警告修改和睡眠相关修改
  7. 告别2018:人间值得,你更值得!
  8. html页面字体美化,网页字体的美化-网页设计,HTML/CSS
  9. Python求向量的余弦值
  10. 火狐主页被360导航篡改(360安全卫士中的主页防护导致的)