信息论与编码_信息与编码系列（五）不可靠信道——决策法则、Hamming距离与信息论基本定理...

序

这个算是正本书中关于信息论的最后内容了，后面就是关于编码理论的内容。

这篇文章主要目的还是想引出信息论基本定理的。像决策法则，其实就是某一个信道的逆过程。Hamming距离给出了传输前后在数值意义上的度量。

鉴于Shannon定理——信息论基本定理过于冗长，我单独列了个文章写进去了。详情可以点进去参考

陆艺：信息与编码系列（Appendix1）信息论基本定理的证明（by Shannon）zhuanlan.zhihu.com

决策法则（decision rules）

看似是个新的概念，但是联系之前所讲到的信道（information channel）的含义，从映射的角度来说，它就是信道的逆。

给出信道

，输入源和输出源

和

。接收方是只能得到

。若想通过某一种算法，推算出接受的字符是由

发出的哪个字符，即推算

，有

。我们把这个过程叫做

决策法则，记为函数

这里说一点，其实这个函数并不一定是正确的，它表示的是这类函数的一个特例。这个过程叫做对输出的解码（decoding the output）。

对于这样的函数，一共有多少种呢，考虑对于特定的

，可知，一共有

个结果，那么对

遍历，则要进行

次乘积，于是就有

种映射。

依旧是考虑BSC，如果是接收方信赖发送方，那么就有决策法则

我们假定，知

推到

的概率为

就是

前馈概率。

那么对于输入源的推测准确率呢，就是加权求和一下，我们记作

即某些联合概率的和。

然后错误率呢，就是按

取反呗，我们记

于是我们希找一个正确率高，相应地失误率低的决策法则，这样的法则就被称为理想观测法则（ideal observer rule）。

根据前面的推导，我们要想找到正确率高的，也就是要找联合分布概率最高的，让最高的

中的

变成

。根据概率论中的公式，可以有如下关系

其中

为信道矩阵。

考虑BSC

然后有决策法则

就是取每列最大的一项。

我们到这里可以总结出一点，就是

除了映射方面的意义，另一方面，相当于给出接收方的序号

，返回一个

，对应的是发送方相应的信号。

如果，碰到了接收方对发送方不是那么的了解，那么对发送方的预测就依赖于信道的特性。假设输入方的每个信号概率都是相等的，只考虑信道矩阵，即只需考虑

使得

，直接从信道矩阵中找出每列最大的项。这个过程叫做

最大似然法则（maximum likelihood rule）。

该法则对于特定的输入源所得到的正确率可能不是那么高，但是，他是对于下面这个积分满足最大值

其中

。其实证明上也好说明，因为

于是原积分为

对于每一个

，积分值都是在单纯形边界测度，所以当

取最大值时，积分最大。

对于这两种法则，读者可以自行讨论BEC的情形。

那么，对于上述的法则有木有改进的措施呢？显然有。

依旧考虑BSC，令

，信道矩阵为

，其中

。

根据最大似然法则，有

，误码率为

，信道容量为

。

然后，通过对源码进行编码，

让源用连续三次的发送作为一个源符。输出

一共有八个符

这几个符号，对应的输入输出矩阵为

于是，我们有最大似然法则

于是，对于编码

，有

我们有对应的解码法则

这个有时候我们叫做大数判决译码（majority decoding）：通过计算收到

或者

的比率，来将其翻译成频率最高所对应的符。对于整个过程，我们可以有

将上面的过程看成一体，于是原先的信道就变成新的BSC了，其信道矩阵为

这一过程，

比原先的误码率小很多了！！！

缺点显然也暴露出来了：原先一次传一个单位，这下三次传一个单位——比原先满了

上面只是进行了

次扩张，这叫

二元重复码（binary repetition code）。如果，我们取

为奇数，

最大似然法则就是大数判决译码（因为如果为偶数，则会出现频率相同的时候）。而且能发现，随着

，

。但是传输效率

为何说最大似然就是大数判决译码呢，当进行

扩张后，可以得到一个

的矩阵，上下两边“中心对称”（对比

）。至于中间每一项长什么样子？可以考虑

进行展开，并且不合并同类相，按

的指数由高到低排列，即可得到。既然

，那么对应最大似然的话，就是要将

的指数大于

的指数的项译为

,其余译为

。而大数判决译码呢，他就是看谁多，译谁。而指数也表示着一串序列中，对应符号出现的次数，所以最大似然就是大数判决译码。误码率怎么看呢，就是考虑

的趋势，其中

的指数截止到

。为方便书写，令

，于是

因为

，按

的指数进行放缩，可以有

看见阶乘的估计，我就想到了Striling公式，用该公式进行等价替换，但是，这样放缩发现

放少了。

所以需要换个方法来估计，不妨考虑

每增加一项的变化率，然后得到

于是，对于系数为

的幂级数收敛，从而一般项收敛于

从而误码率逼近于

证明完成。

然后对于上面的方法，考虑进一步拓展，考虑输入源

是有

个字符的源。

能被用于其发送的编码。例如

上的重复码

都是形如

，其字长为

。如果

，那么

看作是

扩张

。用

中

个码字表示从

中输出的

个字符，于是又传输效率

。例如

元重复码

，

，那么

。一般来说，非空集合

传输效率被定义为

因此

。因为

，所以对于所有

满足

。

Hamming距离

看见距离，第一印象就应当想到存在映射

，满足下面三条：

正定性：
对称性：
三角形不等性：

（以上定义我把量词给省略了。。。。）

要定义Hamming距离，首先要定义

和

，其中

，

是数域，则任取两向量，则

，有

即不同坐标的个数。

譬如说，

，有

容易证明，Hamming距离的定义符合距离。引入距离，那么所有源符的空间就是距离空间。有了距离，便好进行度量、分类。

为了通过

进行信息传输，对于某个

，有编码

，并且使用最大似然决策法则。最大似然法则在输入源是等概率分布时是最佳策略，在一般情况下也是，除去一些特殊分布。因为在

时有

，这在后面的Shannon定理中会有所涉及。

为了简便描述，后面就都用BSC信道来描述了（

），也就是说

，其中

。而我们用最大似然法则就意味着：对于任意输出

，对

解码，即得到

，也就是说，相对于发送方来说，使得前馈概率

最大。

现在，我们记

，也就是说，对于特定发送和接受，

个字符出现误码，那么出现这种情况的概率应当为

能看出，对于特定的

，他是关于

的减函数。也就是说，最大似然的情况下，即前馈概率最高时，那么距离也应当最小。能发现，最大似然法则与Hamming距离有关系了。管这种解码方式叫做

最近邻解码（nearest neighbour decoding）。如果出现多种解码选项，则任选其一即可。

信息论基本定理——Shannon 定理

该定理是信息论的基本定理，是Shannon于1948年在其硕士论文中得证。该定理通俗来讲，就是对发送端进行编码，随着码字长越来越大，那么发送准确率会达到我们的期望值，且传输效率会逼近与信道的通信容量。准确率很好理解，就是误码率降低了，那么通信容量怎么理解呢？之前讲到过，通信容量就是交互信息量的最大值。而交互信息量，就是发送和接受方可以产生“共鸣”的部分。也就是说，将码长不断加长，一方面传达准确率会增加，另一方面想要表达的内涵也会更加全面。

就好比说，对一件事情描述的语言足够合理地冗长，那么它在传播的过程中，误传率就会很低，其精神就会很大地保留。

信息论基本定理 令

为BSC，

，因此信道容量

。此外任取足够小

，对于充分大的

有编码

，效率为

，其满足

，以至于得到最近邻解码的误码率为

。

换种数学分析中的语言就是

（这要注意一点，

是取不到

的）

在一般形式下的基本定理，没有指定信道

，已经算是很强的结果了。不过整体思路上还是差不多的，证明的关键步骤没有用到BSC的性质。

我这里证明打算分两段来讲，第一个是思路，第二个是详细证明。

思路：首先来看的是误码率。对于误码率，要考虑发送码和接受码的距离，并且通过弱大数定律，可以推出总体上这两方面的关系——发送接收的Hamming距离就是字长乘上误码率。对于误码率估计的时候，将它看作两部分：一部分是接受码于发送码直接的误差超过既定范围，第二部分就是说存在Hamming距离更小的译码（由最近邻得到的）。接着在估计的时候，Shannon很睿智地按可能出现的源进行等概率分布的情形的讨论，并且用平均的方法进行估计。对于误差的第一部分，通过弱大数定律直接高阶无穷小；第二部分在平均后，直接考虑误差不可忽略部分的平均——几何上就是以某个码为圆心，误差距离为半径的闭球，计算这球的测度与整个空间测度的比值，取平均。最后借助一点二项式定理上的不等式得到证明。而剩余部分，就是比较简单的细节推到了，下面给出来详细证明。

证明：详情参考该文章

陆艺：信息与编码系列（Appendix1）信息论基本定理的证明（by Shannon）zhuanlan.zhihu.com

Shannon定理的逆命题

Shannon 定理指出通过某个信道

，其传输效率可以任意地靠近信道容量。那么问题来了：是否可以取到通信容量呢？下面我们就要讨论，这个效率是

不可能取到的。我们接下来要证明的，不光是在BSC中，对应于任意的信道也是如此。首先，我们需要关于误差的最小上界，也就是说Fano界（Fanoe bound）。

定理令

为信道，输入输出源为

，

。那么误码率

对于任意的决策法则有如下的关系

我们门面说过，熵是反应系统中不确定性的指标。对于知后推前的情形，有

作为上界估计。而我们在考虑到与误码率之间关系的上界时，需要进一步的讨论。在证明之前，我们看不等式RHS部分：第一项表明由后推前的不确定性包含着既正确又错误的概率，如果正确了，熵为令，如果错误了，就是第二项的部分。第二项就是讨论当错误的时候，熵是多少——有多大程度的不确定性。

证明：

考虑到定义式

当考虑到因决策法则的影响，可以将

分成两部分，一部分是由决策法则所影响的

，然后就是其余的部分

再来看RHS，

以及

从而

于是容易得到

由

对上式进行估计

为什么对

双求和之后就是

呢，首先，

分别从

个相同的源码概率中遍历，一共有

种情形，相对于每一种

刨去一个

，那么就相当于对

个元素里遍历。因为对

遍历后为

，所以相当于

个

相加。QED

对于Shannon定理的逆，就是说

定理如果有

，则并不是对于

，有一码序列

，其长度

，其速率会在

，以致于

。

我们可以考虑反证，假设真有这样的

，不妨我们令

，这情况下码

是存在的（

如果有一个不存在，那么“任意性”便可攻破~），从而

我们对

进行

的

扩张编码，其输出记为

，通过Fano上界，于是有

其中

。

我们有如下方式来考虑

：定义输入源的字符表

在

的分布概率，为

，其他的字概率为

（

这个字符表是个广义概念，我们只需要考虑信道作用的部分）。于是

的容量为

，于是

对于LHS结合刚刚的Fano边界，即有

容量和上界有这样的关系

，给出

因此有

（最后一个不等式是用

做的）

然后我们考虑这个不等式

是否成立。首先

，从而RHS第一项为零，又因为前面的假设，

，从而矛盾。QED

最后，Shannon定理这里需要提及一下，当我们为了追求高传输率、高准确率的时候，随之而来的就是高延迟和开销。因为随着

增大，需要码空间也指数增长。即使传输速率高了，但是想要完整传输一个“意思”需要的字符也增多。