数据结构——哈夫曼树

1.介绍

哈夫曼树就是树的带权路径长度（即WPL）最小的树，WPL等于所有叶节点的带权路径长度之和。

而叶节点的带权路径长度=该结点的路径长度*该结点的权值。

结点的路径长度就是从根节点到该结点所经历的边数。而权值即赋给每个结点的一个数值。

（a）WPL =1*2+3*2+5*2+7*2=32

（b）WPL=1*3+3*3+5*2+7*1=29

（c）WPL=1*2+3*3+5*5+7*1=43

因此，abc中（b）图的WPL最小。

那么怎么求出WPL最小的树呢？

2.算法

假设有n个权值，则构造出的哈夫曼树有n个叶子结点。 n个权值分别设为 w1、w2、…、wn，则哈夫曼树的构造规则为：

(1) 将w1、w2、…，wn看成是有n 棵树的森林(每棵树仅有一个结点)；

(2) 在森林中选出两个根结点的权值最小的树合并，作为一棵新树的左、右子树，且新树的根结点权值为其左、右子树根结点权值之和；

(3)从森林中删除选取的两棵树，并将新树加入森林；

(4)重复(2)、(3)步，直到森林中只剩一棵树为止，该树即为所求得的哈夫曼树。

3.特点

（1）有n个叶节点的哈夫曼树共有2n-1个结点。

（2）权值越大的叶节点，离根节点越近，权值越小的叶节点，离根节点越远。

（3）哈夫曼树是正则二叉树，只有度为0和2的结点。

（4）哈夫曼树任意非叶节点的左右子树交换后仍是哈夫曼树。因此，哈夫曼树不唯一。

4.编码作用

等长编码：每个对象二进制长度相等。

不等长编码：每个对象二进制长度不相等。

等长编码虽然容易解码，但编码而成二进制长度太长。常用的子符编码居然也要和不常用的字符编码一样长。

对于不等长编码，对常用的字符进行相对较短的二进制编码表示，不常用的字符进行相对较长的二进制编码表示，减少了解码报文的二进制长度，但容易发生多种解码的方式。

比如说“00”可以表示‘E’，而‘0’可以表示‘G’，那么“00“即可解码成E，也可解码成GG。

因此，有了前缀码（名字很奇怪），即任何一个字符的编码都不是另一个字符的前缀的编码方式。

由于哈夫曼树编码结点向左为0，向右为1，而且只对叶节点编码，其双亲结点不编码，也就不存在一个对象的编码是另一个编码的前缀的情况。

这样，我们利用哈夫曼树，这样既能是前缀码易于解码，又能根据字符常用程度赋给其结点权值，其解码任务大大减少。

#pragma once
#include<iostream>
template<class T>
class huffman_tree
{struct huffman_node{//哈夫曼树的字符结点是哈夫曼树的叶节点T data;//编码的字符int weight;//其权值//父节点位序,根据哈夫曼算法，利用parent是否为-1可以分辨一个结点是否已经用上，用上则不为-1int parent;int left, right;//左右孩子位序huffman_node() { weight = INT_MAX; parent = left = right = -1; }};struct huffman_code{T data;//编码字符std::string code;huffman_code() = default;//code初始化为“”};huffman_node* hf_tree;//顺序结构保存哈夫曼树huffman_code* hf_code;//顺序结构保存哈夫曼码int size;int select_min();//查找最小的结点,返回位序
public:huffman_tree(int init_size,const T* d,const int* w);~huffman_tree() { delete[]hf_tree; delete[]hf_code; }void print_code();
};
template<class T>
int huffman_tree<T>::select_min()
{int w = INT_MAX;int loc = -1;for (int i = 0; i < 2*size-1; i++){if (hf_tree[i].parent == -1 && hf_tree[i].weight < w){w= hf_tree[i].weight;loc = i;}}hf_tree[loc].parent = INT_MAX;//该结点已不是在选择的范围内return loc;
}
template<class T>
huffman_tree<T>::huffman_tree(int init_size, const T* d, const int* w)
{//初始化过程size = init_size;hf_tree = new huffman_node[2 * size - 1];//结点存放处hf_code = new huffman_code[size];//编码存放处//size-1到2*size-2存放叶节点，0到size-2结点不存放字符for (int i = 0; i < size; i++){hf_tree[i + size - 1].data = d[i];hf_tree[i + size - 1].weight = w[i];hf_code[i].data = d[i];}//进行哈夫曼树的建立,我们保证0位序是根节点便于下面的编码for (int i = size-2; i >=0; i--){int p = select_min(), q = select_min();hf_tree[p].parent = hf_tree[q].parent = i;hf_tree[i].weight = hf_tree[p].weight + hf_tree[q].weight;//根据第四个性质，以下顺序可以颠倒hf_tree[i].left = p;hf_tree[i].right = q;}//进行哈夫曼树的编码for (int i = size-1; i < 2*size-1; i++){int p = hf_tree[i].parent;int s = i;while (s){if (hf_tree[p].left == s)hf_code[i - size + 1].code = '0' + hf_code[i - size + 1].code;elsehf_code[i - size + 1].code = '1' + hf_code[i - size + 1].code;s = p;p = hf_tree[s].parent;}}
}
template<class T>
void huffman_tree<T>::print_code()
{for (int i = 0; i <size; i++)std::cout << hf_code[i].data << " " << hf_code[i].code << std::endl;
}