信息熵:

在信息论与概率统计中,熵是表示随机变量不确定性的度量。对于离散型随机变量集合X,其概率分布为

则随机变量X的熵为

熵越大,表示随机变量的不确定性就越大。

例如,当随机变量X的集合取值只有0和1时,其概率分布为

则,熵为

当H(p)的值为0时,说明变量完全没有不确定性,当p=0.5,也就是H(P)=1时(最大值),说明随机变量的不确定性最大。而在机器学习中,熵的值越大表示所含的信息量越多(特征选择算法也是利用该思想)。

而在特征选择计算方法中,熵的计算公式为

其中,D为数据集,|D|为样本集中样本的个数,|C_k|为类别C_k中的样本个数,K为数据集中类别的个数。上式表示的意思是对于数据集D熵等于该类别在数据集中所有取值的概率乘以log以2为底的概率之和。在特征选择方法中,K的取值则为2类,一种是包含特征词的类别,一种是不包含特征词的类别,则将类别分为了1和0。

条件熵

条件熵H(Y|X)表示在已知随机变量X的条件下随机变量Y的不确定性。随机变量X给定的条件下随机变量Y的条件熵H(Y|X),定义为X给定条件下Y的条件概率分布的熵对X的数学期望

当熵和条件熵中的概率由数据估计(特别是极大似然估计,表明该方法中的参数是估计出来的不是数据集中的具体数据)得到时,所对应的熵与条件熵分布称为经验熵和经验条件熵。

针对特征选择方法中,特征A对数据集D的条件熵H(D|A)为

在上式中,对于在特征词A下数据集D的条件熵是特征词A的所有不同取值的比例分别乘以该特征词子集合的信息熵之和。

信息增益

信息增益表示得知特征X的信息而使得类Y的信息的不确定性减少的程度。信息增益是度量某个特征词属于某个特定类别的信息量。特征词的信息增益值等于特征词的经验熵与特征在给定条件下的经验熵之差。给定特征词W与类别C,用IG表示W对于类别C的信息增益。公式如下

其中, IG(W,C)表示特征词W在类别C下的信息增益值。 H(C)表示类别C的信息熵。 H(C|W)表示特征词W在类别C中的条件熵。

互信息

在信息论中为了更好的描述事物之间的联系,引入了互信息的概念。对于两个随机变量X和Y,他们之间在某种程度上也是相互联系的,即他们之间存在着一定的依赖关系,互信息反应了两个随机变量之间相互依存关系的强弱。

定义为:

在特征选择方法中,I(C;F)可以从全局上衡量特征词F和类别C之间的关系,具有较高区分能力的词都具有较高的互信息值。

卡方统计

卡方统计是特征选择方法中效果最好的算法之一。卡方统计是标准化的值,用来检验两个事件的独立性。在特征选择算法中,卡方统计度量词与类别的相关程度,一个类别中的词,如果卡方统计值为零,表明该词与该类别是独立不相关的,该词不包含该类别的信息。如果卡方统计值很大,说明该词包含很多该类别的信息。卡方统计的计算公式如式所示。

特征词与类别的关联表

频率

属于特征词w

不属于特征词w

属于类别c

A

C

不属于类别c

B

D

表示特征词t和类别c之间的卡方统计值。N为文本的数量,N=A+B+C+D。我们在做卡方统计计算时,都采用简化的卡方统计计算公式,公式如下所示,其中的变量如上表所示。

参考文献

https://wenku.baidu.com/view/12d8e161915f804d2b16c161.html

https://blog.csdn.net/xwd18280820053/article/details/70739368

https://www.jianshu.com/p/9bbe71750547

统计学习方法

一种改进的基于条件互信息的特征选择算法

特征选择方法-统计方法相关推荐

  1. 如何在机器学习项目中使用统计方法的示例

    摘要: 在本文中,将通过十个实例介绍在机器学习项目中起关键作用的统计学方法. 统计学和机器学习是两个密切相关的领域.两者的界限有时非常模糊,例如有一些明显属于统计学领域的方法可以很好地处理机器学习项目 ...

  2. 物联网课程学习目标_学习攻略|软件工程统计方法amp;amp;物联网

    软件工程统计方法 && 物联网 任课老师:余松森,葛红 课程特点及困难 本课程的主要内容涉及统计机器学习方法, 以及如何采用Python进行应用实现. 同学们在学习中主要遇到以下问题: ...

  3. 机器学习中,有哪些特征选择的工程方法?

    机器学习中,有哪些特征选择的工程方法? 数据和特征决定了机器学习的上限,而模型和算法调参只是逼近这个上限而已. 0,特征本身是否具有基础的表征能力或者判别性,例如方差筛选法.方差是衡量一个变量的离散程 ...

  4. linux 物理内存统计,说说free命令  + Linux可用内存统计方法

    关键在于两个字段,buffers和cached. 你经常会发现Linux系统用了一段时间后,内存所剩无几,free命令,一看,内存全跑到 buffers和cached里面了:这个现象是正常的.访问过的 ...

  5. Linux的文本字段统计方法

    Linux的文本字段统计方法 一.环境介绍 二.目的及要求 三.实际操作 一.环境介绍 二.目的及要求 三.实际操作 一.环境介绍 1.linux版本为RHEL8.0版本 2.使用权限为root账号权 ...

  6. Pandas高级教程之:统计方法

    文章目录 简介 变动百分百 Covariance协方差 Correlation相关系数 rank等级 简介 数据分析中经常会用到很多统计类的方法,本文将会介绍Pandas中使用到的统计方法. 变动百分 ...

  7. python数学计算模块_Python-NumPy模块数学和统计方法(4)

    1.前言 使用一组数学函数对numpy数组进行操作的时候,有两种方式计算:对整个数组进行计算: 对源数组的某个轴向的数据进行统计计算: 2.下面是基本的数组统计方法数组统计方法 3.统计函数的分类 下 ...

  8. oracle 月累计,oracle 可有什么方法 统计每月累积购买人数?

    oracle 可有什么方法 统计每月累积购买人数? oracle 可有什么方法 统计每月累积购买人数 比如说有个门店 2008年购买商品的人数 表:t_buy_log  字段 f_username 用 ...

  9. 基于git命令的代码统计方法

    基于git命令的代码统计方法 没什么好说的,基于git log命令,使用前提是安装了git ......1.统计所有人代码量 统计所有人代码增删量,拷贝如下命令,直接在git bash等终端,git项 ...

  10. NumPy 统计方法

    https://docs.scipy.org/doc/numpy/reference/routines.statistics.html 排序统计 方法 描述 amin(a[, axis, out, k ...

最新文章

  1. MD5 - Bump Mapping
  2. Sci-Hub重生了,这回用上了分布式网络
  3. ensp启动设备蓝屏_为什么早期的Windows经常死机蓝屏,现在却很少发生?这些你都知道吗?...
  4. cenos 下的一些常用命令及技巧收集篇
  5. 递推:Ybtoj: D.4 序列个数
  6. WIN10系统 截图或者某些程序时屏幕会自动放大怎么办
  7. WPF自定义控件与样式(4)-CheckBox/RadioButton自定义样式
  8. python中常用的os模块
  9. React从入门到精通系列之(14)refs和DOM元素
  10. winfrom模拟表单同步数据、上传文件(.net core)
  11. Pentest Wiki Part6 权限维持
  12. c++获取子类窗口句柄位置_C++中各种获取窗口句柄的方法
  13. steam游戏直连工具
  14. java面试题总结-详细分类
  15. github提交代码:schannel: failed to receive handshake, SSL/TLS connection failed
  16. A tutorial on Principal Components Analysis - 主成分分析(PCA)教程
  17. 教你远程桌面如何传递声音
  18. 程序员职场第一课 配套课程大纲 免费视频 免费PPT下载地址 包括全部21讲
  19. 参数估计与非参数估计
  20. Struts2--控制标签(s:if、s:elseif、s:else、s:iterator)

热门文章

  1. JSON字符串如何转化成对象?
  2. Top 50 有趣网站
  3. UVM寄存器模型:reg adapter实现和集成
  4. python-patterns
  5. es7 创建模板时,报错 Validation Failed: 1: index patterns are missing
  6. win7计算机管理没有键盘,win7系统中出现键盘无法输入的详细解决步骤
  7. 主题:北京亿阳信通Oracle笔试题
  8. Eureka入口之DiscoveryClient
  9. IE里面的画笔---VML(Vector Markup Language)入门之一
  10. python3.8如何正确安装使用ExcelLibrary