python实现LZW算法

原理

①原理： 提取原始文本文件数据中的不同字符，基于这些字符创建一个编译表，然后用编译表中的字符的索引来替代原始文本文件数据中的相应字符，减少原始数据大小。

②编码过程：

伪代码 Pseudo code：
初始化：扫描所有字符，将所有的单个字符，按字母顺序初始化，并放入字典中初始化：扫描所有字符，将所有的单个字符，按字母顺序初始化，并放入字典中初始化：扫描所有字符，将所有的单个字符，按字母顺序初始化，并放入字典中
读入第一个字符赋值S1读入第一个字符赋值S1 读入第一个字符赋值S1
step:{读入下一个输入字符→S2step:\left\{读入下一个输入字符→S2\right. step:{读入下一个输入字符→S2
ifS2为空if \ S_2为空 if S2为空
{扫尾：输出S1的index，结束}\left\{扫尾：输出S1的index，结束\right\} {扫尾：输出S1的index，结束}
ifS1+S2已存在字典中if\ S_1+S_2已存在字典中 if S1+S2已存在字典中
{S1+S2→S1repeat，step}\left\{S_1+S_2→S_1\right. \left.\ repeat，step \right\} {S1+S2→S1 repeat，step}
else{输出S1的indexelse\left\{输出S1的index\right. else{输出S1的index
S2→S1S_2→S_1 S2→S1
将S1+S2顺序添加到字典末尾将S1+S2顺序添加到字典末尾将S1+S2顺序添加到字典末尾
repeat，step}\left. repeat，step\right\} repeat，step}
}\left.\right\} }

③解码过程：

根据输出的index，在字典中查找相应的字符按顺序输出，即可解码

代码实现

# 江南大学 物联网18级——MH
# python pandas库用于展示字典内容，不需要自己使用format进行格式规范了
import pandas as pd
# _flatten用于展平二维列表→一维元组,list(dict.values())得到的是二维列表
from tkinter import _flatten# LZW解码
def lzw_decoding(list_index_out, dict_syb_idx):list_index = list(dict_syb_idx.values())list_index = list(_flatten(list_index))list_syb = list(dict_syb_idx.keys())print("\n>>>LZW解码为：")for index_lp_o in range(0, len(list_index_out)):for index_lp_i in range(0, len(list_syb)):if list_index_out[index_lp_o] == list_index[index_lp_i]:print(list_syb[index_lp_i], end=' ')# 初始化操作，将单个字符按一定顺序排列，放入字典中
def initialization(str_input):# 符号列表、存储index和符号的字典、index列表初始化list_symbol, list_index = [], []dict_symbol_index = {}# 遍历输入的字符序列，对于截止当前下标，只出现一次的单个符号，放入字典；出现多次已经在字典中，不必重复for index_loop in range(0, len(str_input)):if str_input.count(str_input[index_loop], 0, index_loop + 1) == 1:list_symbol.append(str_input[index_loop])list_symbol.sort()for index_loop in range(0, len(list_symbol)):dict_symbol_index[list_symbol[index_loop]] = hex(index_loop)print("\n>>>遵循Python符号排序规则，对输入符号排序如下")print(list_symbol)del list_symbol, list_index, index_loopprint("\n>>>得到初始化字典为：")vertical_printing1 = pd.Series(dict_symbol_index)print(vertical_printing1)return dict_symbol_index# LZW编码，格式化输出
def lzw_coding(dict_symbol_index, str_input):# 初始化操作s_1 = str_input[0]print("\n>>>编码过程:")list_idx_out = []# 进入编码循环for index_loop in range(1, len(str_input)):s_2 = str_input[index_loop]print("S1 ——>{:>8}".format(s_1), "  S2 ——>{:>8}".format(s_2), end='')# 判断是否已经存储过符号组合S1+S2，若在flag==Trueif s_1 + s_2 in dict_symbol_index:s_1 = s_1 + s_2print("    >>   S1+S2{:>13}    >>   S1 + S2 → S1".format("IN DICT"), " S1next = {:<8}".format(s_1))continue# 如果未存储过S1+S2，输出用list_idx_out存储else:list_idx_out.append(dict_symbol_index[s_1])len_dict = len(dict_symbol_index)dict_symbol_index[s_1 + s_2] = hex(len_dict)s_1 = s_2print("    >>   S1+S2{:>13}    >>   ".format("NOT IN DICT"), "{:>11}".format("S2 → S1"), " S1next = {:<8}".format(s_1))list_idx_out.append(dict_symbol_index[s_1])del s_1, s_2, index_loopreturn dict_symbol_index, list_idx_outif __name__ == '__main__':str1_input = input(">>>请输入字符序列\n")dict_end, list_idx_out = lzw_coding(initialization(str1_input), str1_input)vertical_printing = pd.Series(dict_end)print("\n>>>字典更新为：")print(vertical_printing)print("\n>>>输出为：\n", list_idx_out)lzw_decoding(list_index_out=list_idx_out, dict_syb_idx=dict_end)