目录

一、哈夫曼树定义与原理

二、构建哈夫曼树

三、哈夫曼编码

完整代码:


前言:章末含c语言实现完整代码

一、哈夫曼树定义与原理

哈夫曼树又称最优二叉树,是一种带权路径长度最短的二叉树。所谓树的带权路径长度,就是树中所有的叶结点的权值乘上其到根结点的路径长度(若根结点为0层,叶结点到根结点的路径长度为叶结点的层数)。

树的路径长度是从树根到每一结点的路径长度之和,记为:

WPL=(W1*L1+W2*L2+W3*L3+...+Wn*Ln)

N个权值Wi(i=1,2,...n)构成一棵有N个叶结点的二叉树,相应的叶结点的路径长度为Li(i=1,2,...n)。可以证明哈夫曼树的WPL是最小的。

例:计算下面三棵二叉树的WPL

(a)WPL = 7*2+5*2+4*2+2*2 = 36

(b)WPL = 7*3+5*3+4*2+2*2 = 46

(c)WPL = 7*1+5*2+4*3+2*3 = 35

其中(c)的带权路径WPL值最小,可以验证为哈夫曼树。

二、构建哈夫曼树

对于给定的有各自权值的 n 个结点,构建哈夫曼树方法如下

  1. 在 n 个权值中选出两个最小的权值,对应的两个结点组成一个新的二叉树,且新二叉树的根结点的权值为左右孩子权值的和;
  2. 在原有的 n 个权值中删除那两个最小的权值,同时将新的权值加入到 n–2 个权值的行列中,以此类推;
  3. 重复 1 和 2 ,直到所以的结点构建成了一棵二叉树为止,这棵树就是哈夫曼树。

哈夫曼树的构建过程图:

前提:上图中,(A)给定了四个结点a,b,c,d,权值分别为7,5,2,4;

第一步:如(B)所示,找出现有权值中最小的两个,2 和 4 ,相应的结点 c 和 d 构建一个新的二叉树,树根的权值为 2 + 4 = 6;

第二步:将原有权值中的 2 和 4 删掉,将新的权值 6 加入;

第三步:进入(C),重复之前的步骤。直到(D)中,所有的结点构建成了一个全新的二叉树。

结点结构:

构建哈夫曼树时,首先需要确定树中结点的构成。由于哈夫曼树的构建是从叶子结点开始,不断地构建新的父结点,直至树根,所以结点中应包含指向父结点的指针。但是在使用哈夫曼树时是从树根开始,根据需求遍历树中的结点,因此每个结点需要有指向其左孩子和右孩子的指针。

代码表示结点结构:

//哈夫曼树结点结构
typedef struct {int weight;//结点权重int parent, left, right;//父结点、左孩子、右孩子在数组中的位置下标
}HTNode, *HuffmanTree;

哈弗曼树中的查找算法:

构建哈夫曼树时,需要每次根据各个结点的权重值,筛选出其中值最小的两个结点,然后构建二叉树。

查找权重值最小的两个结点的思想是:从树组起始位置开始,首先找到两个无父结点的结点(说明还未使用其构建成树),然后和后续无父结点的结点依次做比较,有两种情况需要考虑:

  • 如果比两个结点中较小的那个还小,就保留这个结点,删除原来较大的结点
  • 如果介于两个结点权重值之间,替换原来较大的结点

代码实现:

//HT数组中存放的哈夫曼树,end表示HT数组中存放结点的最终位置,s1和s2传递的是HT数组中权重值最小的两个结点在数组中的位置
void Select(HuffmanTree HT, int end, int *s1, int *s2)
{int min1, min2;//遍历数组初始下标为 1int i = 1;//找到还没构建树的结点while(HT[i].parent != 0 && i <= end){i++;}min1 = HT[i].weight;*s1 = i;i++;while(HT[i].parent != 0 && i <= end){i++;}//对找到的两个结点比较大小,min2为大的,min1为小的if(HT[i].weight < min1){min2 = min1;*s2 = *s1;min1 = HT[i].weight;*s1 = i;}else{min2 = HT[i].weight;*s2 = i;}//两个结点和后续的所有未构建成树的结点做比较for(int j=i+1; j <= end; j++){//如果有父结点,直接跳过,进行下一个if(HT[j].parent != 0){continue;}//如果比最小的还小,将min2=min1,min1赋值新的结点的下标if(HT[j].weight < min1){min2 = min1;min1 = HT[j].weight;*s2 = *s1;*s1 = j;}//如果介于两者之间,min2赋值为新的结点的位置下标else if(HT[j].weight >= min1 && HT[j].weight < min2){min2 = HT[j].weight;*s2 = j;}}
}

三、哈夫曼编码

哈夫曼编码就是在哈夫曼树的基础上构建的,这种编码方式最大的优点就是用最少的字符包含最多的信息内容。
        根据发送信息的内容,通过统计文本中相同字符的个数作为每个字符的权值,建立哈夫曼树。对于树中的每一个子树,统一规定其左孩子标记为 0 ,右孩子标记为 1 。这样,用到哪个字符时,从哈夫曼树的根结点开始,依次写出经过结点的标记,最终得到的就是该结点的哈夫曼编码。

文本中字符出现的次数越多,在哈夫曼树中的体现就是越接近树根。编码的长度越短。

如上图所示,字符 a 用到的次数最多,其次是字符 b 。字符 a 在哈夫曼编码是 0 ,字符 b 编码为 10 ,字符 c 的编码为 110 ,字符 d 的编码为 111 。

哈夫曼编码有两种方法:

  1. 从叶子结点一直找到根结点,逆向记录途中经过的标记。例如,上图中字符 c 的哈夫曼编码从结点 c 开始一直找到根结点,结果为:0 1 1 ,所以字符 c 的哈夫曼编码为:1 1 0(逆序输出)。
  2. 从根结点出发,一直到叶子结点,记录途中经过的标记。例如,求上图中字符 c 的哈夫曼编码,就从根结点开始,依次为:1 1 0。

方法一实现:

//HT为哈夫曼树,HC为存储结点哈夫曼编码的二维动态数组,n为结点的个数
void HuffmanCoding(HuffmanTree HT, HuffmanCode *HC,int n){*HC = (HuffmanCode) malloc((n+1) * sizeof(char *));char *cd = (char *)malloc(n*sizeof(char)); //存放结点哈夫曼编码的字符串数组cd[n-1] = '\0';//字符串结束符for(int i=1; i<=n; i++){//从叶子结点出发,得到的哈夫曼编码是逆序的,需要在字符串数组中逆序存放int start = n-1;//当前结点在数组中的位置int c = i;//当前结点的父结点在数组中的位置int j = HT[i].parent;// 一直寻找到根结点while(j != 0){// 如果该结点是父结点的左孩子则对应路径编码为0,否则为右孩子编码为1if(HT[j].left == c)cd[--start] = '0';elsecd[--start] = '1';//以父结点为孩子结点,继续朝树根的方向遍历c = j;j = HT[j].parent;}//跳出循环后,cd数组中从下标 start 开始,存放的就是该结点的哈夫曼编码(*HC)[i] = (char *)malloc((n-start)*sizeof(char));strcpy((*HC)[i], &cd[start]);}//使用malloc申请的cd动态数组需要手动释放free(cd);
}

 方法二实现:

//HT为哈夫曼树,HC为存储结点哈夫曼编码的二维动态数组,n为结点的个数
void HuffmanCoding(HuffmanTree HT, HuffmanCode *HC,int n){*HC = (HuffmanCode) malloc((n+1) * sizeof(char *));int m=2*n-1;int p=m;int cdlen=0;char *cd = (char *)malloc(n*sizeof(char));//将各个结点的权重用于记录访问结点的次数,首先初始化为0for (int i=1; i<=m; i++) {HT[i].weight=0;}//一开始 p 初始化为 m,也就是从树根开始。一直到p为0while (p) {//如果当前结点一次没有访问,进入这个if语句if (HT[p].weight==0) {HT[p].weight=1;//重置访问次数为1//如果有左孩子,则访问左孩子,并且存储走过的标记为0if (HT[p].left!=0) {p=HT[p].left;cd[cdlen++]='0';}//当前结点没有左孩子,也没有右孩子,说明为叶子结点,直接记录哈夫曼编码else if(HT[p].right==0){(*HC)[p]=(char*)malloc((cdlen+1)*sizeof(char));cd[cdlen]='\0';strcpy((*HC)[p], cd);}}//如果weight为1,说明访问过一次,即是从其左孩子返回的else if(HT[p].weight==1){HT[p].weight=2;//设置访问次数为2//如果有右孩子,遍历右孩子,记录标记值 1if (HT[p].right!=0) {p=HT[p].right;cd[cdlen++]='1';}}//如果访问次数为 2,说明左右孩子都遍历完了,返回父结点else{HT[p].weight=0;p=HT[p].parent;--cdlen;}}
}

完整代码:

#include<stdlib.h>
#include<stdio.h>
#include<string.h>
//哈夫曼树结点结构
typedef struct {int weight;//结点权重int parent, left, right;//父结点、左孩子、右孩子在数组中的位置下标
}HTNode, *HuffmanTree;
//动态二维数组,存储哈夫曼编码
typedef char ** HuffmanCode;
//HT数组中存放的哈夫曼树,end表示HT数组中存放结点的最终位置,s1和s2传递的是HT数组中权重值最小的两个结点在数组中的位置
void Select(HuffmanTree HT, int end, int *s1, int *s2)
{int min1, min2;//遍历数组初始下标为 1int i = 1;//找到还没构建树的结点while(HT[i].parent != 0 && i <= end){i++;}min1 = HT[i].weight;*s1 = i;i++;while(HT[i].parent != 0 && i <= end){i++;}//对找到的两个结点比较大小,min2为大的,min1为小的if(HT[i].weight < min1){min2 = min1;*s2 = *s1;min1 = HT[i].weight;*s1 = i;}else{min2 = HT[i].weight;*s2 = i;}//两个结点和后续的所有未构建成树的结点做比较for(int j=i+1; j <= end; j++){//如果有父结点,直接跳过,进行下一个if(HT[j].parent != 0){continue;}//如果比最小的还小,将min2=min1,min1赋值新的结点的下标if(HT[j].weight < min1){min2 = min1;min1 = HT[j].weight;*s2 = *s1;*s1 = j;}//如果介于两者之间,min2赋值为新的结点的位置下标else if(HT[j].weight >= min1 && HT[j].weight < min2){min2 = HT[j].weight;*s2 = j;}}
}
//HT为地址传递的存储哈夫曼树的数组,w为存储结点权重值的数组,n为结点个数
void CreateHuffmanTree(HuffmanTree *HT, int *w, int n)
{if(n<=1) return; // 如果只有一个编码就相当于0int m = 2*n-1; // 哈夫曼树总节点数,n就是叶子结点*HT = (HuffmanTree) malloc((m+1) * sizeof(HTNode)); // 0号位置不用HuffmanTree p = *HT;// 初始化哈夫曼树中的所有结点for(int i = 1; i <= n; i++){(p+i)->weight = *(w+i-1);(p+i)->parent = 0;(p+i)->left = 0;(p+i)->right = 0;}//从树组的下标 n+1 开始初始化哈夫曼树中除叶子结点外的结点for(int i = n+1; i <= m; i++){(p+i)->weight = 0;(p+i)->parent = 0;(p+i)->left = 0;(p+i)->right = 0;}//构建哈夫曼树for(int i = n+1; i <= m; i++){int s1, s2;Select(*HT, i-1, &s1, &s2);(*HT)[s1].parent = (*HT)[s2].parent = i;(*HT)[i].left = s1;(*HT)[i].right = s2;(*HT)[i].weight = (*HT)[s1].weight + (*HT)[s2].weight;}
}
//HT为哈夫曼树,HC为存储结点哈夫曼编码的二维动态数组,n为结点的个数
void HuffmanCoding(HuffmanTree HT, HuffmanCode *HC,int n){*HC = (HuffmanCode) malloc((n+1) * sizeof(char *));char *cd = (char *)malloc(n*sizeof(char)); //存放结点哈夫曼编码的字符串数组cd[n-1] = '\0';//字符串结束符for(int i=1; i<=n; i++){//从叶子结点出发,得到的哈夫曼编码是逆序的,需要在字符串数组中逆序存放int start = n-1;//当前结点在数组中的位置int c = i;//当前结点的父结点在数组中的位置int j = HT[i].parent;// 一直寻找到根结点while(j != 0){// 如果该结点是父结点的左孩子则对应路径编码为0,否则为右孩子编码为1if(HT[j].left == c)cd[--start] = '0';elsecd[--start] = '1';//以父结点为孩子结点,继续朝树根的方向遍历c = j;j = HT[j].parent;}//跳出循环后,cd数组中从下标 start 开始,存放的就是该结点的哈夫曼编码(*HC)[i] = (char *)malloc((n-start)*sizeof(char));strcpy((*HC)[i], &cd[start]);}//使用malloc申请的cd动态数组需要手动释放free(cd);
}
//打印哈夫曼编码的函数
void PrintHuffmanCode(HuffmanCode htable,int *w,int n)
{printf("Huffman code : \n");for(int i = 1; i <= n; i++)printf("%d code = %s\n",w[i-1], htable[i]);
}
int main(void)
{int w[5] = {2, 8, 7, 6, 5};int n = 5;HuffmanTree htree;HuffmanCode htable;CreateHuffmanTree(&htree, w, n);HuffmanCoding(htree, &htable, n);PrintHuffmanCode(htable,w, n);return 0;
}

【数据结构】【哈夫曼树】哈夫曼树、赫夫曼树(Huffman Tree)C语言实现相关推荐

  1. 数据结构(十五)— 树结构之赫夫曼树及其应用

    现在我们都是讲究效率的社会,什么都要求速度, 在不能出错的情况下,做任何事情都讲究越快越好.在计算机和互联网技术中,文本压缩就是一个非常重要的技术. 玩电脑的人几乎都会应用压缩和解压缩软件来处理文档. ...

  2. 数据结构--赫夫曼树

    数据结构 –赫夫曼树 文章目录 数据结构 一.一些概念 二.最优二叉树(赫夫曼树) 三.赫夫曼树的构造 四.赫夫曼编码 五.前缀编码 一.一些概念 路径:从树中一个结点到另一个结点之间的分支构成这两个 ...

  3. 数据结构与算法——赫夫曼树基本实现

    目录 一.赫夫曼树 1.1 基本介绍 1.2 赫夫曼树创建步骤图解 1.3  代码实现 二.赫夫曼编码 2.1 基本介绍 2.1.1  通讯领域 - 定长编码 - 举例说明 2.1.2  通讯领域 - ...

  4. 高级数据结构之赫夫曼树

    思考两个问题 电报发送:二战的时候大家都知道那时候普遍会应用电报,如果让你来设计一个电报的发送编码你该如何设计呢? 电报加密后越短越好,发送快. 破解难 解码容易 换加密树也要快 可逆的 压缩算法:给 ...

  5. 数据结构-赫夫曼树(三)

    Huffman Tree 哈夫曼树 霍夫曼树 概念 代码实现: 概念 路径和路径长度: 路径: 从一个节点往下可以达到的子节点或子子节点之间的通路 路径长度: 通路中分支的数目称之为路径长度. 根节点 ...

  6. 【数据结构】赫夫曼树与赫夫曼编码(可执行完整代码)

    赫夫曼编码对文件进行压缩与解密 理论 赫夫曼树 赫夫曼编码 应用 应用源码 运行结果截图 理论 赫夫曼树 先有赫夫曼树,才有赫夫曼编码.所以,首先简单介绍一下什么是赫夫曼树. 假设一共五个叶子节点,分 ...

  7. 赫夫曼树的定义及原理

    参考<大话数据结构>        以学生成绩为例进行分析,正常的学生成绩的分布范围如下: 下面的图是普通的学生成绩判断,粗略的看什么问题,可是通常都认为,一张好的考卷应该是让学生的成绩大 ...

  8. 赫夫曼树与赫夫曼编码

    1.赫夫曼树也叫最优二叉树,n个权值构造一颗有n个叶子结点的二叉树,且使叶子结点带权路径长度之和最小,则得到一颗赫夫曼树. 2.赫夫曼树的构造 ⑴给定n个权值,构成一个森林的集合F,F中初始为n颗只有 ...

  9. 赫夫曼树(Haffman)及其运用

    赫夫曼树,别名"哈夫曼树"."最优树"以及"最优二叉树". 概念: 路径:在一棵树中,一个结点到另一个结点之间的通路,称为路径. (从根结点 ...

  10. 由二叉树构造赫夫曼树

    赫夫曼树: 假设有n个权值{w1,w2,w3....},试构造一棵具有 n个叶子节点的二叉树,每个叶子节点带权为wi,则其中 带权路径长度最小的二叉树称为最优二叉树或者叫赫夫曼树. 构造赫夫曼树: 假 ...

最新文章

  1. Sqli-labs less 25a
  2. 查看mysql是否启动_Mysql查看是否使用到索引
  3. 阿里云与WPS深度合作,开放数据处理生态
  4. Elasticsearch 定制评分(自定义评分)
  5. Hbase和MySQL的区别是什么?
  6. 嵌入式软件开发工程师的养成之路——从 推挽输出 开始
  7. KITTI数据集(全)百度网盘下载地址
  8. android: 怎么使用腾讯X5WebView
  9. 北斗如何帮助电动车精细管理?北斗高精度定位显神威
  10. 如何将超大文件传输给别人,超大文件如何传输
  11. lodop 条码类型说明
  12. 二次开发Spark实现JDBC读取远程租户集群Hive数据并落地到本集群Hive的Hive2Hive数据集成【Java】
  13. (数据分析)网课评论分析
  14. OpenCVcv2.imread传入灰度图像,shape还是3通道
  15. glove.840B.300d、glove.42B.300d、glove.6B下载
  16. 推荐一款免费的数据库管理工具,比Navicat还要好用,功能还很强大!
  17. 隐函数(组)存在定理
  18. C/C++ 内使用贝塞尔函数
  19. 解决oracle导出dmp时 904错误
  20. python机器学习算法-Chapter1

热门文章

  1. php判断小数点的长度_PHP 判断字符串是否为整数、数字、不含小数点
  2. Element UI版本升级
  3. tkinter-menu详解
  4. 如何使用BARY节能:智能家居
  5. 3分钟学会 “今日头条” 富文本编辑
  6. 航班信息数据获取(传入起始点、终点以及日期)
  7. hive sql 时间戳转换与时间的各种转换
  8. 今天 明天 昨天时间
  9. 快速学会corn表达式
  10. C#:实现24点游戏算法(附完整源码)