Huffman 编码

具体原理及定义请百度,下面直接进行实现。具体实现过程是: 统计若干字符出现的频率,将其按频率(权重)升序存放进队列中,每次从队列中取两个结点合成一颗二叉树,这两个结点的根节点是取出来两个结点的字符的权重和,并且将新的结点放入队列中,满足队列依旧是升序排列,一直持续直到队列中仅剩最后一个结点,此时这个结点就是 Human 树的根节点,构成的树也叫最优二叉树


下面将分为两个文件,作用分别是 Huffman 编码以及解码,不再模拟传输过程,仅仅是简单模拟数据压缩以及恢复过程。


/*** Huffman 编码的实现*/#include <stdio.h>
#include <string.h>
#include <stdlib.h>
#define FILEINPUTSTRING "inputString.txt"
#define FILEENCODESTRING "encodeString.txt"
#define FILEENCODING "encoding.txt"/*** Huffman 树的结点* @param mCharacter 要编码的单个字符*/
typedef struct nodeTree {char mCharacter;struct nodeTree* mLeft;struct nodeTree* mRight;
}NodeTree, *LPNodeTree;/*** 树* 指向树的根结点的指针*/
typedef struct {LPNodeTree root;
}Tree, *LPTree;/*** 队列结点* 根据分析可知构成 Huffman 树要通过一个单调优先队列来完成* 因为要进行多次插入操作,因此选择链队列,并且由于不像常规的队列一样* 满足头部弹出,尾部进入,因此可不设头尾指针 (其实更像链表) * @param mPriority 权重,即字符出现的次数* @param mTreeNode 树的结点*/
typedef struct nodeQueue {unsigned int mPriority;NodeTree mTreeNode;struct nodeQueue* mNext;
}NodeQueue, *LPNodeQueue;/************************************************************ Huffman 树的构建                                         ** 先将每种字符保存在队列的树结点中,并将权重保存在队列中          ** 再将所有结点按照权重升序插入单调优先队列中                    ***********************************************************//*** 初始化空队列* 将队列创建出来 (空队列),各个成员都赋予初值* @return 队列头结点*/
LPNodeQueue initialQueue() {LPNodeQueue headQueueNode = (LPNodeQueue)malloc(sizeof(NodeQueue));     // 堆区申请队列头结点空间headQueueNode->mNext = NULL;headQueueNode->mPriority = 0;headQueueNode->mTreeNode.mCharacter = 0;headQueueNode->mTreeNode.mLeft = headQueueNode->mTreeNode.mRight = NULL;        // 初始化队列头结点的各个成员return headQueueNode;
}/*** 创建队列的单个结点,并将其成员赋值* @param priority 字符的权重* @param character 被统计的单个字符* @param left 树结点的左孩子* @param right 树结点的右孩子* @return 单个队列结点*/
LPNodeQueue createQueueNode(unsigned int priority, char character, LPNodeTree left, LPNodeTree right) {LPNodeQueue newQueueNode = (LPNodeQueue)malloc(sizeof(NodeQueue));newQueueNode->mNext = NULL;newQueueNode->mPriority = priority;newQueueNode->mTreeNode.mCharacter = character;newQueueNode->mTreeNode.mLeft = left;newQueueNode->mTreeNode.mRight = right;return newQueueNode;
}/*** 创建树结点* @param character 被统计的单个字符* @param left 树结点的左孩子* @param right 树结点的右孩子* @return 树结点*/
LPNodeTree createTreeNode(char character, LPNodeTree left, LPNodeTree right) {LPNodeTree newTreeNode = (LPNodeTree)malloc(sizeof(NodeTree));newTreeNode->mCharacter = character;newTreeNode->mLeft = left;newTreeNode->mRight = right;return newTreeNode;
}/*** 入队列操作,将结点按权重升序插入队列* @param headQueueNode 要插入的队列头结点* @param queueNode 要插入的队列结点*/
void enQueue(LPNodeQueue headQueueNode, LPNodeQueue queueNode) {LPNodeQueue preQueueNode = headQueueNode;   // preQueueNode 一直指向 moveQueueNode 的直接前驱结点LPNodeQueue moveQueueNode = headQueueNode->mNext;   // moveQueueNode 定位为首元结点/*** 队列不为空并且待插入结点的权值大于当前 moveQueueNode 的权值,* 则要将待插入结点往后移动* 最终定位到 preQueueNode 是 moveQUeueNode 的直接前驱结点,此时 moveQUeueNode 所处的位置应该是* 待插入结点的目标位置*/while(moveQueueNode!=NULL && queueNode->mPriority>moveQueueNode->mPriority) {preQueueNode = moveQueueNode;moveQueueNode = moveQueueNode->mNext;}queueNode->mNext = moveQueueNode;preQueueNode->mNext = queueNode;    // 找到定位后将新结点直接插入即可
}/*** 出队列操作,将头结点指向的结点移出队列并返回队列结点元素的树结点* 因为最终是需要使用树结点来构成最优二叉树,而非是队列结点* @param headQueueNode 队列头结点* @return 移出队列结点元素的树结点*/
LPNodeTree deQueue(LPNodeQueue headQueueNode) {// 空队列直接退出LPNodeQueue moveQueueNode = headQueueNode->mNext;if(moveQueueNode == NULL) {printf("QUEUE EMPTY!\n");exit(1);        // 直接中止程序}// 重新构建一个树结点,将移出的队列结点释放LPNodeTree returnTreeNode = createTreeNode(moveQueueNode->mTreeNode.mCharacter, moveQueueNode->mTreeNode.mLeft, moveQueueNode->mTreeNode.mRight);headQueueNode->mNext = moveQueueNode->mNext;    // 移除出队列首元结点moveQueueNode->mNext = NULL;free(moveQueueNode);moveQueueNode = NULL;return returnTreeNode;
}/*** 统计字符串各个字符的权重并构建单调优先队列* @param inputString 待统计的字符串,通过文件得到* @return 单调优先队列的头结点*/
LPNodeQueue getPriorityAndCreateQueue(char* inputString) {/*** 按照 ASCII 码来统计字符,使用哈希表* ASCII 码表上总共有 256 个字符*/unsigned int* priority = (unsigned int*)calloc(256, sizeof(unsigned int));for(int i = 0; inputString[i] != '\0'; ++i) {priority[inputString[i]]++;}// 创建队列LPNodeQueue headQueueNode = initialQueue();for(int i = 0; i < 256; ++i) {if(priority[i] > 0) {   // 字符数量大于 0 的才入队列LPNodeQueue newQueueNode = createQueueNode(priority[i], (char)i, NULL, NULL); // 创建队列结点,此时树结点的左右子树都是空enQueue(headQueueNode, newQueueNode);       // 将队列结点插入队列}}free(priority);return headQueueNode;
}/*** 创建 Huffman树* @param inputString 构建树的字符串,由文件得到* @return Huffman 指向 Huffman 树的根节点的指针*/
LPTree createHuffmanTree(char* inputString) {if(inputString == NULL) {printf("INPUTSTRING EMPTY!\n");exit(1);}LPNodeQueue headQueueNode = getPriorityAndCreateQueue(inputString); // 得到单调优先队列if(headQueueNode->mNext == NULL) {  // 队列为空printf("QUEUE EMPTY!\n");exit(1);}/*** 取出队列两个结点合并成为一个根结点后在插入队列,* 直到队列中只剩一个结点*/while(headQueueNode->mNext->mNext != NULL) {unsigned int priority = headQueueNode->mNext->mPriority +headQueueNode->mNext->mNext->mPriority; // 先得到将要弹出的的两个结点的权重之和LPNodeTree left = deQueue(headQueueNode);LPNodeTree right = deQueue(headQueueNode);LPNodeQueue newQueueNode = createQueueNode(priority, '0', left, right);   // 创建新的队列结点,此时有左右孩子了,而字符可以随意给一个enQueue(headQueueNode, newQueueNode);}/*** 创建树指针,指向 Huffman 树的根结点*/LPTree huffmanTree = (LPTree)malloc(sizeof(Tree));LPNodeTree newTreeNode = createTreeNode(headQueueNode->mNext->mTreeNode.mCharacter, headQueueNode->mNext->mTreeNode.mLeft, headQueueNode->mNext->mTreeNode.mRight);// 销毁最后一个队列结点以及头结点LPNodeQueue firstQueueNode =  headQueueNode->mNext;headQueueNode->mNext = NULL;free(firstQueueNode); firstQueueNode = NULL;free(headQueueNode); headQueueNode = NULL;huffmanTree->root = newTreeNode;return huffmanTree;
}/*************************************************   到此 Huffman 树已经构建完成,下面可以简单测试一下 ********************************//*** 树的前序遍历*/
void preprint(LPNodeTree root) {if(root != NULL) {printf("%c ", root->mCharacter);preprint(root->mLeft);preprint(root->mRight);}
}/*** 树的中序遍历*/
void midprint(LPNodeTree root) {if(root != NULL) {midprint(root->mLeft);printf("%c ", root->mCharacter);midprint(root->mRight);}
}void testHuffmanTree() {/*** 输入的字符串定为 "aaaaabbbbcccddeffffff",即 5 个 a,4 个 b,3 个 c, 2 个 d,1 个 e 以及 6 个 f* 这样简单的字符经过人工计算得到的 Huffman 树的* 前序遍历应该为 "0 0 b a 0 0 0 e d c f"* 中序遍历应该为 "b 0 a 0 e 0 d 0 c 0 f"* 出现 0 是因为在 createHuffmanTree() 函数中创建新的队列结点时给的任意字符为 '0'* 经验证确实如此*/char* inputString = "aaaaabbbbcccddeffffff";LPTree huffmanTree = createHuffmanTree(inputString);preprint(huffmanTree->root);printf("\n");midprint(huffmanTree->root);
}/*************************************************************************** Huffman 树创建完成之后就可以提取 Huffman 编码表了,可以有很多方法              ** 比如链表链接,但是对于编码表来说,查找肯定是主要操作,所以选择用查找速度更快的      ** 哈希表,通过遍历 Huffman 树,左子树填 0 右子树填 1,最终构成一个完整的编码表     ***************************************************************************//*** 初始化 HushMap,由于 key 值是字符,因此可以直接把字符对应的 ASCII 码作为索引* @return 二维哈希表的首地址,行表示的是每个字符,列表示的是每个字符的二进制编码*/
char** initialHushMapCodingTable() {/*** 由于 ASCII 码中有 256 个字符 (包括不可见字符,因为要用十进制 ASCII 作为索引,* 因此不可见字符虽然不会出现在 inputString 中,但还是需要为他们创建索引),所以* 需要创建 256 个连续空间,用用来保存每一个字符的编码*/char** codingTable = (char**)calloc(256, sizeof(char*));return codingTable;
}/*** 将二进制编码信息录入到编码表中* @param codingTable 待录入信息的 Huffman 编码表* @param code 编码* @param character 编码对应的字符*/
void addCodingToCodingTable(char** codingTable, char* code, char character) {int codeSize = strlen(code);codingTable[character] = (char*)malloc(sizeof(codeSize+1));   // 给要录入信息的字符开辟存储编码的空间strcpy(codingTable[character], code);
}/*** 递归遍历 Huffman 树来得到每个字符的编码,并将其加入编码表* @param root Huffman 树的根结点* @param codingTable Huffman 编码表* @param code 存储当前字符的 Huffman 编码信息* @param k code 当前的长度,也可以说是当前结点所在树的深度*/
void travelHuffmanTree(LPNodeTree root, char** codingTable, char* code, int k) {// 递归出口,当遍历到 Huffman树的叶子节点时,就到达了字符所在的位置,此时 code 中就是编码if(root->mLeft==NULL && root->mRight==NULL) {code[k] = '\0';     // 给编码加上截至符addCodingToCodingTable(codingTable, code, root->mCharacter);    // 加入编码表}if(root->mLeft != NULL) { // 遍历左子树code[k] = '0';  // 左分支填 0travelHuffmanTree(root->mLeft, codingTable, code, k+1);     // 进行递归,k 值要加一}if(root->mRight != NULL) {  // 右子树code[k] = '1';travelHuffmanTree(root->mRight, codingTable, code, k+1);}
}/*** 创建 Huffman 编码表* @param tree Huffman 树指针* @return 完整的编码表首地址*/
char** createHuffmanCodingTable(LPTree tree) {char** codingTable = initialHushMapCodingTable();char* code = (char*)calloc(256, sizeof(char));  // 先给编码开辟足够的空间travelHuffmanTree(tree->root, codingTable, code, 0);    // 从树的根结点 (第 0 层)开始free(code); // 填好表后释放空间return codingTable;
/***********************************************  到此 Huffman 编码表也已经创建完成,下面简单测试一下  **********************************//************************************************************************ 输入的字符串还是用之前测试 Huffman 树的数据,即 "aaaaabbbbcccddeffffff",  ** 那么得到的编码表应该如下:                                               ** a 01                                                                ** b 00                                                                ** c 101                                                               ** d 1001                                                              ** e 1000                                                              ** f 11                                                                ** 经验证确实如此                                                        ************************************************************************/void testHuffmanCodingTable() {char* inputString = "aaaaabbbbcccddeffffff";LPTree huffmanTree = createHuffmanTree(inputString);char** codingTable = createHuffmanCodingTable(huffmanTree);for(int i = 0; i < 256; ++i) {if(codingTable[i] != NULL) {printf("%c %s\n", i, codingTable[i]);}}
/********************************************   将待编码字符生成二进制编码   *******************************************//*** 将待编码字符生成编码 (这里的字符只能是编码表中出现过的字符)* @param codingTable 完整的编码表* @param  encodeString 待编码字符* @return 所有字符的编码*/
char* encode(char** codingTable, char* encodeString) {char* huffmanCode = (char*)malloc(sizeof(char));huffmanCode[0] = '\0';char* tmp = NULL;int size = 0;for(int i = 0; encodeString[i] != '\0'; ++i) {int size1 = strlen(codingTable[encodeString[i]]);    // 得到当前字符的编码长度size += size1;        // 得到当前已保存的编码的总长度tmp = (char*)realloc(huffmanCode, sizeof(char) * (size+10));       // 重新分配更大的空间if(tmp == NULL) {printf("HUFFMANCODE  REALLOCATE MEMORY FAILD!\n");exit(1);}huffmanCode = tmp;strcat(huffmanCode, codingTable[encodeString[i]]);}return huffmanCode;
}/***************************************************     编码生成之后也可以进行小测试     *********************************//************************************************************************ 生成 Huffman 编码表的字符还是跟前两次测试一样,                           ** 而待编码的字符定为 "dacbfeabe" (只能是编码表中存在的字符),则人工计算结果为   **   d  a   c  b  f    e  a  b    e                                    ** 1001 01 101 00 11 1000 01 00 1000                                   ** 最终结果即为一串上述二进制数字                                           ** 经验证确实如此                                                        ***********************************************************************/void testHuffmanEncode() {char* inputString = "aaaaabbbbcccddeffffff";LPTree huffmanTree = createHuffmanTree(inputString);char** codingTable = createHuffmanCodingTable(huffmanTree);char* encodeString = "dacbfeabe";char* huffmanCode = encode(codingTable, encodeString);printf("%s\n", huffmanCode);
}/**********************************************  至此 encode.c 编码功能已经全部完成    ***************************************************//**************************************************** 文件操作,程序中的 inputString 都应该要从文件中读取   ** 并且生成的编码也要保存到文件中                       ***************************************************//*** 从文件中读出文本,这个文件 (INPUTSTRING)是公共的、构成 Huffman 树的* 字符文件,并不是要编码或者是解码的文件* @return 保存有文本的地址*/
char* getInputString() {FILE* fp = fopen(FILEINPUTSTRING, "r");if(fp == NULL) {printf("%s OPEN FAILD!\n", FILEINPUTSTRING);exit(1);}fseek(fp, 0L, SEEK_END);    // 将光标定位到文件末尾,方便统计文件内字符数量long int size = ftell(fp);if(size == 0) {printf("%s EMPTY!\n", FILEINPUTSTRING);exit(1);}fseek(fp, 0L, SEEK_SET);    // 统计完后将光标重新定位到文件开头char* inputString = (char*)calloc(size+10, sizeof(char));   char ch;for(int i = 0; (ch = fgetc(fp)) != EOF; ++i) {      // 将数据存入 inputStringinputString[i] = ch;inputString[i+1] = '\0';}fclose(fp);return inputString;
}/*** 从文件中读取文本,这个文件 (ENCODE)中是待编码的字符* @return 保存有文本的地址*/
char* getEncodeString() {FILE* fp = fopen(FILEENCODESTRING, "r");if(fp == NULL) {printf("%s OPEN FAILD!\n", FILEENCODESTRING);exit(1);}fseek(fp, 0L, SEEK_END);    // 将光标定位到文件末尾,方便统计文件内字符数量long int size = ftell(fp);if(size == 0) {printf("%s EMPTY!\n", FILEENCODESTRING);exit(1);}fseek(fp, 0L, SEEK_SET);    // 统计完后将光标重新定位到文件开头char* encodeString = (char*)calloc(size+10, sizeof(char));   char ch;for(int i = 0; (ch = fgetc(fp)) != EOF; ++i) {      // 将数据存入 encodeStringencodeString[i] = ch;encodeString[i+1] = '\0';}fclose(fp);return encodeString;
}/*** 将生成的编码写入文件中* @param huffmanCode 二进制编码*/
void putHuffmanCodingInFIle(char* huffmanCode) {FILE* fp = fopen(FILEENCODING, "w+");for(int i = 0; huffmanCode[i] != '\0'; ++i) {fputc(huffmanCode[i], fp);}fclose(fp);
}/***********************************************************  操作流程   *************************************************/
void huffmanEncode() {// 读取 (INPUTSTRING) 文本char* inputString = getInputString();// 构建 Huffman 树LPTree huffmanTree = createHuffmanTree(inputString);// 构建 Huffman 编码表char** huffmanCodingTable = createHuffmanCodingTable(huffmanTree);// 读取 (FILEENCODESTRING) 文本char* encodeString = getEncodeString();// 生成 Huffman 编码char* huffmanCode = encode(huffmanCodingTable, encodeString);// 将 Huffman 编码写入文件 (FILEENCODING)putHuffmanCodingInFIle(huffmanCode);printf("\n\nENCODE SUCCESS!\n\n");
}/************************************************************* main 函数 *******************************************/
int main() {// testHuffmanTree();// testHuffmanCodingTable();// testHuffmanEncode();huffmanEncode();return 0;

encode.c 的各个测试结果以及各文件内容及最后的输出文件

  • 哈夫曼树的测试 - - testHuffmanTree() 函数

  • 哈夫曼编码表的测试 - - testHuffmanCodingTable() 函数

  • 哈夫曼编码的测试 - - testHuffmanEncode() 函数

  • 执行结果 - - huffmanEncode() 函数


文件 inputString.txt 中是几篇高中英语课文(不含中文字符),并随机在文本中插入了键盘上的所有可见字符,保证编码表中包含所有英文可见字符 (大概8632字符)

encoding.txt 是得到的 ’ 0 ’ ’ 1 ’ 编码文件(因为无换行,所以全在同一行了,大概4032字符),待解码有818字符,大概是 8 * 818 = 6544 位,编码后只有4032 位了




/*** Huffman 解码的实现*/#include <stdio.h>
#include <string.h>
#include <stdlib.h>
#define FILEINPUTSTRING "inputString.txt"
#define FILEENCODING "encoding.txt"
#define FILEDECODING "decoding.txt"/*** Huffman 树的结点* @param mCharacter 要编码的单个字符*/
typedef struct nodeTree {char mCharacter;struct nodeTree* mLeft;struct nodeTree* mRight;
}NodeTree, *LPNodeTree;/*** 树* 指向树的根结点的指针*/
typedef struct {LPNodeTree root;
}Tree, *LPTree;/*** 队列结点* 根据分析可知构成 Huffman 树要通过一个单调优先队列来完成* 因为要进行多次插入操作,因此选择链队列,并且由于不像常规的队列一样* 满足头部弹出,尾部进入,因此可不设头尾指针 (其实更像链表) * @param mPriority 权重,即字符出现的次数* @param mTreeNode 树的结点*/
typedef struct nodeQueue {unsigned int mPriority;NodeTree mTreeNode;struct nodeQueue* mNext;
}NodeQueue, *LPNodeQueue;/************************************************************ Huffman 树的构建                                         ** 先将每种字符保存在队列的树结点中,并将权重保存在队列中          ** 再将所有结点按照权重升序插入单调优先队列中                    ***********************************************************//*** 初始化空队列* 将队列创建出来 (空队列),各个成员都赋予初值* @return 队列头结点*/
LPNodeQueue initialQueue() {LPNodeQueue headQueueNode = (LPNodeQueue)malloc(sizeof(NodeQueue));     // 堆区申请队列头结点空间headQueueNode->mNext = NULL;headQueueNode->mPriority = 0;headQueueNode->mTreeNode.mCharacter = 0;headQueueNode->mTreeNode.mLeft = headQueueNode->mTreeNode.mRight = NULL;        // 初始化队列头结点的各个成员return headQueueNode;
}/*** 创建队列的单个结点,并将其成员赋值* @param priority 字符的权重* @param character 被统计的单个字符* @param left 树结点的左孩子* @param right 树结点的右孩子* @return 单个队列结点*/
LPNodeQueue createQueueNode(unsigned int priority, char character, LPNodeTree left, LPNodeTree right) {LPNodeQueue newQueueNode = (LPNodeQueue)malloc(sizeof(NodeQueue));newQueueNode->mNext = NULL;newQueueNode->mPriority = priority;newQueueNode->mTreeNode.mCharacter = character;newQueueNode->mTreeNode.mLeft = left;newQueueNode->mTreeNode.mRight = right;return newQueueNode;
}/*** 创建树结点* @param character 被统计的单个字符* @param left 树结点的左孩子* @param right 树结点的右孩子* @return 树结点*/
LPNodeTree createTreeNode(char character, LPNodeTree left, LPNodeTree right) {LPNodeTree newTreeNode = (LPNodeTree)malloc(sizeof(NodeTree));newTreeNode->mCharacter = character;newTreeNode->mLeft = left;newTreeNode->mRight = right;return newTreeNode;
}/*** 入队列操作,将结点按权重升序插入队列* @param headQueueNode 要插入的队列头结点* @param queueNode 要插入的队列结点*/
void enQueue(LPNodeQueue headQueueNode, LPNodeQueue queueNode) {LPNodeQueue preQueueNode = headQueueNode;   // preQueueNode 一直指向 moveQueueNode 的直接前驱结点LPNodeQueue moveQueueNode = headQueueNode->mNext;   // moveQueueNode 定位为首元结点/*** 队列不为空并且待插入结点的权值大于当前 moveQueueNode 的权值,* 则要将待插入结点往后移动* 最终定位到 preQueueNode 是 moveQUeueNode 的直接前驱结点,此时 moveQUeueNode 所处的位置应该是* 待插入结点的目标位置*/while(moveQueueNode!=NULL && queueNode->mPriority>moveQueueNode->mPriority) {preQueueNode = moveQueueNode;moveQueueNode = moveQueueNode->mNext;}queueNode->mNext = moveQueueNode;preQueueNode->mNext = queueNode;    // 找到定位后将新结点直接插入即可
}/*** 出队列操作,将头结点指向的结点移出队列并返回队列结点元素的树结点* 因为最终是需要使用树结点来构成最优二叉树,而非是队列结点* @param headQueueNode 队列头结点* @return 移出队列结点元素的树结点*/
LPNodeTree deQueue(LPNodeQueue headQueueNode) {// 空队列直接退出LPNodeQueue moveQueueNode = headQueueNode->mNext;if(moveQueueNode == NULL) {printf("QUEUE EMPTY!\n");exit(1);        // 直接中止程序}// 重新构建一个树结点,将移出的队列结点释放LPNodeTree returnTreeNode = createTreeNode(moveQueueNode->mTreeNode.mCharacter, moveQueueNode->mTreeNode.mLeft, moveQueueNode->mTreeNode.mRight);headQueueNode->mNext = moveQueueNode->mNext;    // 移除出队列首元结点moveQueueNode->mNext = NULL;free(moveQueueNode);moveQueueNode = NULL;return returnTreeNode;
}/*** 统计字符串各个字符的权重并构建单调优先队列* @param inputString 待统计的字符串,通过文件得到* @return 单调优先队列的头结点*/
LPNodeQueue getPriorityAndCreateQueue(char* inputString) {/*** 按照 ASCII 码来统计字符,使用哈希表* ASCII 码表上总共有 256 个字符*/unsigned int* priority = (unsigned int*)calloc(256, sizeof(unsigned int));for(int i = 0; inputString[i] != '\0'; ++i) {priority[inputString[i]]++;}// 创建队列LPNodeQueue headQueueNode = initialQueue();for(int i = 0; i < 256; ++i) {if(priority[i] > 0) {   // 字符数量大于 0 的才入队列LPNodeQueue newQueueNode = createQueueNode(priority[i], (char)i, NULL, NULL); // 创建队列结点,此时树结点的左右子树都是空enQueue(headQueueNode, newQueueNode);       // 将队列结点插入队列}}free(priority);return headQueueNode;
}/*** 创建 Huffman树* @param inputString 构建树的字符串,由文件得到* @return Huffman 指向 Huffman 树的根节点的指针*/
LPTree createHuffmanTree(char* inputString) {if(inputString == NULL) {printf("INPUTSTRING EMPTY!\n");exit(1);}LPNodeQueue headQueueNode = getPriorityAndCreateQueue(inputString); // 得到单调优先队列if(headQueueNode->mNext == NULL) {  // 队列为空printf("QUEUE EMPTY!\n");exit(1);}/*** 取出队列两个结点合并成为一个根结点后在插入队列,* 直到队列中只剩一个结点*/while(headQueueNode->mNext->mNext != NULL) {unsigned int priority = headQueueNode->mNext->mPriority +headQueueNode->mNext->mNext->mPriority; // 先得到将要弹出的的两个结点的权重之和LPNodeTree left = deQueue(headQueueNode);LPNodeTree right = deQueue(headQueueNode);LPNodeQueue newQueueNode = createQueueNode(priority, '0', left, right);   // 创建新的队列结点,此时有左右孩子了,而字符可以随意给一个enQueue(headQueueNode, newQueueNode);}/*** 创建树指针,指向 Huffman 树的根结点*/LPTree huffmanTree = (LPTree)malloc(sizeof(Tree));LPNodeTree newTreeNode = createTreeNode(headQueueNode->mNext->mTreeNode.mCharacter, headQueueNode->mNext->mTreeNode.mLeft, headQueueNode->mNext->mTreeNode.mRight);// 销毁最后一个队列结点以及头结点LPNodeQueue firstQueueNode =  headQueueNode->mNext;headQueueNode->mNext = NULL;free(firstQueueNode); firstQueueNode = NULL;free(headQueueNode); headQueueNode = NULL;huffmanTree->root = newTreeNode;return huffmanTree;
}/*************************************  Huffman 树创建完成,跟编码的树一模一样   ********************************************//*** 树的前序遍历*/
void preprint(LPNodeTree root) {if(root != NULL) {printf("%c ", root->mCharacter);preprint(root->mLeft);preprint(root->mRight);}
}/*** 树的中序遍历*/
void midprint(LPNodeTree root) {if(root != NULL) {midprint(root->mLeft);printf("%c ", root->mCharacter);midprint(root->mRight);}
}void testHuffmanTree() {/*** 输入的字符串定为 "aaaaabbbbcccddeffffff",即 5 个 a,4 个 b,3 个 c, 2 个 d,1 个 e 以及 6 个 f* 这样简单的字符经过人工计算得到的 Huffman 树的* 前序遍历应该为 "0 0 b a 0 0 0 e d c f"* 中序遍历应该为 "b 0 a 0 e 0 d 0 c 0 f"* 出现 0 是因为在 createHuffmanTree() 函数中创建新的队列结点时给的任意字符为 '0'* 经验证确实如此*/char* inputString = "aaaaabbbbcccddeffffff";LPTree huffmanTree = createHuffmanTree(inputString);preprint(huffmanTree->root);printf("\n");midprint(huffmanTree->root);
}/*********************************************** 根据生成的 Huffman 编码遍历 HUffman 树来解码    ** 编码为 0 则向左支移动,编码为 1 则向右支移动,直到 ** 到达叶子节点,此时该结点字符即为解码出来的字符     ************************************************//*** 解码过程* @param tree Huffman 树指针* @param encoding Huffman 编码* @return 解码后的字符串*/
char* decode(LPTree tree, char* encoding) {char* decoding = (char*)calloc(1, sizeof(char));char* tmp = NULL;LPNodeTree root = tree->root;int j = 0;for(int i = 0; encoding[i] != '\0'; ++i) {if(encoding[i] == '0') root = root->mLeft;else if(encoding[i] == '1') root = root->mRight;if(root->mLeft==NULL && root->mRight==NULL) {int size = strlen(decoding);tmp = (char*)realloc(decoding, sizeof(char) * (size+10));   // 分配足够的空间if(tmp == NULL) {printf("DECODING REALLOCATE MEMORY FAILD!\n");exit(1);}decoding = tmp;decoding[j++] = root->mCharacter;       // 将当前字符加入到解码字符串中decoding[j] = '\0';root = tree->root;              // 当前编码解码完成后后续的编码要从根结点重新开始遍历}}return decoding;
}/****************************************************    解码完成后测试一番   ***********************************//*** 在 encode.c 中测试编码的时候用的字符串是 "dacbfeabe",* 测试出来得到的编码是 "1001 01 101 00 11 1000 01 00 1000",* 因此这次直接用这一串编码看能不能得出原字符串 "dacbfeabe"* 经验证确实如此*/
void testHuffmanDecode() {char* inputString = "aaaaabbbbcccddeffffff";LPTree huffmanTree = createHuffmanTree(inputString);char* encoding = "1001011010011100001001000";char* decoding = decode(huffmanTree, encoding);printf("%s\n", decoding);
}/**********************************************  至此 decode.c 解码功能已经全部完成    ***************************************************//**************************************************** 文件操作,程序中的 inputString 应该要从文件中读取     ** 并且生成的编码也要保存到文件中                       ***************************************************//*** 从文件中读出文本,这个文件 (INPUTSTRING)是公共的、构成 Huffman 树的* 字符文件,并不是要编码或者是解码的文件* @return 保存有文本的地址*/
char* getInputString() {FILE* fp = fopen(FILEINPUTSTRING, "r");if(fp == NULL) {printf("%s OPEN FAILD!\n", FILEINPUTSTRING);exit(1);}fseek(fp, 0L, SEEK_END);    // 将光标定位到文件末尾,方便统计文件内字符数量long int size = ftell(fp);if(size == 0) {printf("%s EMPTY!\n", FILEINPUTSTRING);exit(1);}fseek(fp, 0L, SEEK_SET);    // 统计完后将光标重新定位到文件开头char* inputString = (char*)calloc(size+10, sizeof(char));   char ch;for(int i = 0; (ch = fgetc(fp)) != EOF; ++i) {      // 将数据存入 inputStringinputString[i] = ch;inputString[i+1] = '\0';}fclose(fp);return inputString;
}/*** 从文件中读取文本,这个文件 (DECODEING)中是待解码的字符* @return 保存有文本的地址*/
char* getEncoding() {FILE* fp = fopen(FILEENCODING, "r");if(fp == NULL) {printf("%s OPEN FAILD!\n", FILEENCODING);exit(1);}fseek(fp, 0L, SEEK_END);    // 将光标定位到文件末尾,方便统计文件内字符数量long int size = ftell(fp);if(size == 0) {printf("%s EMPTY!\n", FILEENCODING);exit(1);}fseek(fp, 0L, SEEK_SET);    // 统计完后将光标重新定位到文件开头char* encoding = (char*)calloc(size+10, sizeof(char));   char ch;for(int i = 0; (ch = fgetc(fp)) != EOF; ++i) {      // 将数据存入 encodingencoding[i] = ch;encoding[i+1] = '\0';}fclose(fp);return encoding;
}/*** 将生成的解码字符写入文件中* @param encoding 已解码字符串*/
void putStringInFIle(char* decoding) {FILE* fp = fopen(FILEDECODING, "w+");for(int i = 0; decoding[i] != '\0'; ++i) {fputc(decoding[i], fp);}fclose(fp);
}/**********************************************   操作流程  ***************************************/
void huffmanDecode() {// 读取 (INPUTSTRING) 文本char* inputString = getInputString();// 构建 Huffman 树LPTree huffmanTree = createHuffmanTree(inputString);// 读取 (ENCODING) 文本char* encoding = getEncoding();// 将二进制编码进行解码char* decoding = decode(huffmanTree, encoding);// 将解码字符保存至文件 (DECODING)putStringInFIle(decoding);printf("\n\nDECODE SUCCESS!\n\n");
}/***************************************************  主函数   **************************************/int main() {// testHuffmanTree();// testHuffmanDecode();huffmanDecode();return 0;

decode.c 的各个测试结果以及各文件内容及最后的输出文件

  • 哈夫曼树的测试 - - testHuffmanTree() 函数

  • 哈夫曼解码的测试 - - testHuffmanDecode() 函数

  • 运行结果 - - huffmanDecode() 函数




对比 encodeString.txt 和 decoding.txt 可以发现,两文本完全相同,说明编码解码功能实现正常,整个流程如下:

读取 inputString.txt 中的内容后生成基本的哈夫曼树,编码过程还需生成每个字符的编码,然后读取 encodString.txt 中的内容,此文件内容就是待编码文本,需要压缩后发送给别处,编码成功后将生成的编码保存到 encoding.txt 文件中发送给接收方,接收方得到此文件后可以进行解码,读取同一个 inputString.txt 文件生成与发送方一模一样的哈夫曼树,然后对 encoding.txt 文件中的编码进行解码操作,将解码后的字符串保存到 decoding.txt 文件中

