关于信息熵及信源熵率

摘 要:

熵与温度、压力、焓等一样,也是反映物质内部状态的一个物理量。它不能直接用仪表测量,只能推算出来,所以比较抽象。在作理论分析时,有时用熵的概念比较方便。该文指出了如何用统计物理的方法计算随机过程的多重分形维,以二态隐马尔可夫信源作为例子,该文计算了其熵率。计算结果和理论结果的比较表明,用统计物理的方法计算隐马尔可夫过程熵率具有实用价值。这一方法可以推广到一般信源熵率的数值计算。从数学模型的角度来说,信源和随机过程有着一一对应的关系。

关键词: 熵;信源;熵率;多重分形谱;隐马尔可夫过程

引言

在自然界发生的许多过程中,有的过程朝一个方向可以自发地进行,而反之则不行。例如,一个容器的两边装有温度、压力相同的两种气体,在将中间的隔板抽开后,两种气体会自发地均匀混合,但是,要将它们分离则必须消耗功。混合前后虽然温度、压力不变,但是两种状态是不同的,单用温度与压力不能说明它的状态。两个温度不同的物体相互接触时,高温物体会自发地将热传给低温物体,最后两个物体温度达到相等。但是,相反的过程不会自发地发生。上述现象说明,自然界发生的一些过程是有一定的方向性的,这种过程叫不可逆过程。过程前后的两个状态是不等价的。用什么物理量来度量这种不等价性呢?通过研究,找到了“熵”这个物理量。

熵的概念最初是由R.J.克劳修斯在19世纪中叶建立的,1870年,玻耳兹曼给出了熵的统计解释。熵概念对于初学者,一直是一个较抽象并难以通俗表达的物理概念。但是,近40年来,熵的概念有了迅速而广泛的发展。在天体物理中,黑洞的熵与面积这样的几何概念有联系;在信息论中,信息的熵与信息量的概念有联系,并且出现负熵的概念;在生物学中,生命现象也与熵有着密切关系。此外,由普利高津和哈肯建立的非平衡态统计耗散结构理论及协同学理论,使人们对熵规律有了更新的认识,在无序中产生有序机制的出现,使得熵在许多方面都显示出它的重要性。信源输出信号在数学中可以用随机过程加以描述,因此,可以说信源的建模在某种程度上也就是用恰当的随机过程来描述信号。从复杂性科学的角度来说,熵率只是非线性系统多重分形谱中特殊的一维,即信息维。因此熵率的计算完全可以用统计物理的方法加以解决。多重分形可以分为规则分形和不规则分形。规则多重分形可以用解析方法或统计物理的方法得到它们的多重分形谱,不规则多重分形谱只能用统计物理的方法得出。在得到其多重分形谱以后,熵率就可以从多重分形谱中计算得到。

熵的单位为 J/(mol·K) 或

kJ/(kmol·K)。但是,通常关心的不是熵的数值,而是熵的变化趋势。对实际的绝热膨胀过程,熵必然增加。熵增加的幅度越小,说明损失越小,效率越高。

在本文中,我们引入统计物理中的方法,用以计算信源的熵率。我们将信源的随机模型和非线性动力学中对象之间建立联系,其中离散无记忆信源、隐马尔可夫信源和康托集之间具有对应关系。我们还将演示如何用解析的方法计算离散无记忆信源的熵率。并且这种统计物理的方法,完全可以推广到一般信源熵率的计算。

1 信息熵

信息论的创始人申农引入了一个重要概念:不确定程度。中文电报中的每个字都由4位数字码代表,在没有收到一个数字码以前,人们对它到底是什么并不知道,如果设法计量这个不确知的程度有多大,就为计量信息找出了线索。

信息论指出,如果一个事件(例如收到一个信号)有n个等可能性的结局,那么结局未出现前的不确定程度h与n的自然对数成正比,即有

(c为常数)

(1)

一个电报码从0到9共10个等可能结局,不确定程度就是cln10。当人们收到一个电报码后,就消除了这种“不确定”。这样,人们就从消除了多少不确定程度的角度来定义一个消息中含有的信息量。

4个数码组成一个中文字,因此一个汉字带来的信息量是4ln10或者ln104。

申农把不确定程度h称为信息熵,就这样,“信息”这个词进入了科学的领地,它在定量化的进程中又与物理学中的“熵”概念联系起来。

这种对信息的理解完全排除了获得信息的载体是什么的影响,也排除了信息本身对信人是否重要之类的干扰,从而使信息这个词在极为广泛的领域中都能应用。

假定一个信息量是n个相互独立的选择的结果,其中每个选择都是在0或1中作出,则这个信息量的可能的选择数值为

于是

令 ,则可得到常数

这样计算出来的信息量单位称为比特(bit),在通信中广泛使用。

一条通讯线路如果1s中能传送75bit的信息,我们就说这条线路传输能力为75波特(baud),波特就是1bit/s。而在计算机述评中常用字节(byte)作为信息量的单位,1个字节是8个比特(1byte=8bit),它容得下一个8位二进制数,或说它可记住256个(28)可能状态中究竟是哪一个。平常我们说微机的内存为64k(k为千――kilo),是说它供用户任意存放数据的空间ram是

byte(字节)。

上面所讨论的计量不确定程度(或信息)的方法仅适用于对某事件的结局为几个等可能结局时的情况。当几个结局出现的机会并不相同时,我们可以这样来计量。设有a1,a2,…,an共n个可能的结局,每个结局出现的几率分别为p1,p2,...,pn,则其不确定程度h由下式给出

(2)

当时,即等可能结局情况下,由于各结局出现机会相等,有,(2)式则还原为

这就是等可能结局情况下的计量公式(1),因此(1)式仅是(2)式的一个特例,(2)式是信息熵的一般定义,信息熵也称为申农熵。

注意:在(2)中,由于0<pi<1,有lnpi<0,因此信息熵

h > 0。(2)式前的负号正是为了保证熵不可能为负值。

若考虑离散型随机变量x,它可以离散地取值x1,x2,x3,…,对应的几率分别为p1,p2,p3,…,则离散型随机变量x的信息熵

(3)

对应于多维情况,例如对二维离散型随机变量,若p(xi,yj)是x为xi,y为yj时出现的几率,则复合信息熵为

(4)

可以这样说,只要知道概率分布,就可以求出这个分布(一组概率值)对应的信息熵值(一个数值),它表示在一次抽样时变量出现什么值(即结局)的不确定程度。

对连续型随机变量,容易得到类似的计量公式。

对于一维连续型随机变量x,若它是概率密度分布函数为f(x),则x在区间(a,b)的信息熵为

(5)

信息熵的概念建立,为测试信息的多少找到了一个统一的科学的定量计量方法,奠定了信息论的基础。这里引入的信息熵的概念,既不与热力学过程相联系,也与分子运动无关,但信息熵与热力学熵之间有着密切的关系。

可以证明,信息熵与热力学熵二者之间成正比关系。从某种意义上讲,我们完全可以这样看,熵概念在热力学中即为热力学熵,应用到信息论中则是信息熵。

2.1 不均匀康托集的多重分形谱和熵率

在下面我们简单介绍一下康托集和多重分形谱的概念,关于更多有关康托集和多重分形谱的介绍请参见文献[7]。一种质量分布不均匀的简单康托二分集可以由如下方式生成:初始只有一条线段,每操作一次,将原有线段三等分并舍去中间1/3段后,余下两段的质量分布概率分别为P和1

c语言求信源的信息熵,[转载]关于信息熵及信源熵率相关推荐

  1. C语言求数组中的最大值

    该博文为原创文章,未经博主同意不得转载,如同意转载请注明博文出处 本文章博客地址:https://cplusplus.blog.csdn.net/article/details/105163865 C ...

  2. C语言求最大公约数3种方法

    该博文为原创文章,未经博主同意不得转载,如同意转载请注明博文出处 本文章博客地址:https://cplusplus.blog.csdn.net/article/details/105163610 C ...

  3. C语言求最大公约数与最小公倍数

    该博文为原创文章,未经博主同意不得转载,如同意转载请注明博文出处 本文章博客地址:https://cplusplus.blog.csdn.net/article/details/105022773 求 ...

  4. 1-3 5-7的c语言程序,C语言求1-1/3+1/5-1/7+...——小程序,大道理

    问题:用C语言编写程序求1-1/3+1/5-1/7+... 示例: #include void main(){ int n=; float sum=,a=; while(a<=){ sum=su ...

  5. c语言怎样求最大公约数,c语言求最大公约数

    求差判定法. 如果两个数相差不大,可以用大数减去小数,所得的差与小数的最大公约数就是原来两个数的最大公约数.例如:求78和60的最大公约数.78-60=18,18和60的最大公约数是6,所以78和60 ...

  6. 泰勒级数+牛顿迭代公式+最简单的C语言求根号的值

    转载自:http://blog.csdn.net/tqtuuuu/article/details/6821767 无意间在CSDN上看见一哥们讨论Tecent的两道面试题,其中一道题目就是求根号2的值 ...

  7. C语言:求分解一个任意合数为质数乘积形式

    C语言:求分解一个任意合数为质数乘积形式 如: 100是要分成2*2*5*5才算最后的答案 7=1*7的形式是正确的 16=2*2*2*2 正确 #include<stdio.h> mai ...

  8. C语言求3x3数组对角线元素之和

    C语言求3x3数组对角线元素之和 #include <stdio.h> int main() {int i, j,sum=0;int a[3][3];for (i = 0; i < ...

  9. 图的深度搜索c语言,求图的深度优先搜索!该怎么处理

    当前位置:我的异常网» C语言 » 求图的深度优先搜索!该怎么处理 求图的深度优先搜索!该怎么处理 www.myexceptions.net  网友分享于:2013-03-16  浏览:12次 求图的 ...

  10. c语言有参有类最小公倍数,C语言求最大公约数和最小公倍数算法

    C 语言求最大公约数和最小公倍数算法 C 语言求最大公约数和最小公倍数可以说是C 语言编程学习中一个重点和难点,它常常作为计算机专业学生参加各种考试必须要把握的内容.其算法方面除常用的辗转相除法外.还 ...

最新文章

  1. 李飞飞团队最新论文:基于anchor关键点的类别级物体6D位姿跟踪
  2. php 千万级访问量网站,承受每天百万级访问量的网站需要多少台服务器?
  3. Vue.js 单文件组件
  4. C#静态变量和非静态变量的区别
  5. python去掉字符串中空格的方法
  6. 电视剧潜伏的真正结局
  7. php python 混合_php-python
  8. mysql 四种隔离级别
  9. ASP.NET 主题和外观
  10. 用快递100接口查询各快递物流信息
  11. 天马行空 | 假如上网装X需要花钱?
  12. 企业网站建设如何选择企业cms系统
  13. C语音基础-----那些年我们踩过的坑(一)
  14. 百度网盘提速正规办法 无需破解!!!!!
  15. R语言在图上标出点坐标_R语言绘制平行坐标图(PCP)示例
  16. Thread yield
  17. 《Django By Example》读书笔记 02
  18. php 当地天气预报,php 天气预报代码 采集自中央气象台范围覆盖全国_PHP教程
  19. mysql报警代码183_mysql误删操作回复
  20. 1、AI系统简介及AI系统的分类

热门文章

  1. asm冗余 oracle_ORACLE 11G RAC ASM磁盘的三种冗余模式
  2. Linux之——udp端口测试连接
  3. 空间参考(一)---墨卡托投影、高斯-克吕格投影、UTM投影的异同
  4. sql语句练习50题(Mysql版)
  5. Quartz 定时任务时间表达式说明
  6. STEP 7-Micro/WIN SMART使用小技巧(持续更新)
  7. 批量下载wsdl文件
  8. 利用tensorflow加载VGG19
  9. 计算机网络——自顶向下
  10. 进行桌面共享软件开发的市场前景如何