以下是阅读了《算法导论》后,对哈希表的一些总结:

哈希表又叫散列表,是实现字典操作的一种有效数据结构。哈希表的查询效率极高,在没有冲突(后面会介绍)的情况下可做到一次存取便能得到所查记录,在理想情况下,查找一个元素的平均时间为O(1)(最差情况下散列表中查找一个元素的时间与链表中查找的时间相同:O(n),但实际情况中一般散列表的性能是比较好的)。

哈希表就是描述key—value对的映射问题的数据结构,更详细的描述是:在记录的存储位置和它的关键字之间建立一个确定的对应关系h,使每个关键字与哈希表中唯一一个存储位置相对应。我们称这个对应关系f为哈希/散列函数,这个存储结构即为哈希/散列表。

一、直接寻址表

当关键字的全域U比较小时,直接寻址是一种简单而有效的技术,它的哈希函数很简单:f(key) = key,即关键字大小直接与元素所在的表位置序号相等。如果关键字不是整数,我们需要通过某种手段将其转换为整数,比如可以将字符关键字转化为其在字母表中的序号作为关键字。直接寻址法的优点是不会出现两个关键字对应到同一个地址的情况(即不会出现f(key1) = f(key2)的情况),因此不用处理冲突。但是,直接寻址表也有着天然的局限性,即如果全域U很大,则在一台标准的计算机可用内存容量中,要存储大小为U的一张表并不实际。

二、散列表

上面说到,在处理实际数据的时候,全域U往往会很大,则在一台标准的计算机可用内存容量中,要存储大小为U的一张表也许不太实际,此时实际需要存储的关键字集合K可能相对U来说很小,这时散列表需要的存储空间要比直接表少很多。

散列表T通过散列函数f计算出关键字key在表中的位置,这些位置被称为“槽”。散列函数f将关键字域U映射到散列表T[0...m-1]的槽位上。由于关键字的个数要大于槽的个数,这里会出现一个问题:若干个关键字可能映射到了表的同一个位置处,我们称这种情形为冲突。我们希望散列表在节省空间的同时,其性能要接近于O(1),因此需要尽量避免冲突,通常的策略是尽可能地设计更好的哈希函数f,将关键字尽可能随机地映射到散列表的每个位置上(为什么说尽可能?因为这里关键字的个数|U|肯定大于散列表的槽个数m,因此至少有两个关键字被映射到同一个槽中,只依靠哈希函数f是无法完全避免冲突的)。

三、哈希函数

哈希函数的构造方法很多,最好的情况是:对于关键字结合中的任一个关键字,经哈希函数映射到地址集合中任何一个地址的概率相等,也就是说,关键字经过哈希函数得到一个随机的地址,以便使一组关键字的哈希地址均匀分布在整个地址空间中,从而减少冲突。同样,由于多数哈希函数都是假定关键字的全域为自然数集N={0、1、2….},因此所给关键字如果不是自然数,就要先想办法将其转换为自然数。下面我们就来看常用的哈希函数。

1.直接定址法

对应前面的直接寻址表,关键字与哈希表中的地址有着一一对应关系,因此不需要处理冲突。

2.除法散列法

哈希函数:f(key) = key % m

函数对所给关键字key取余,这里 m 必须不能大于哈希表的长度len通常 m 可取一个不太接近2的整数次幂的素数

3.乘法散列法

用关键字key乘上A(0 < A < 1),取出其小数部分,然后用 m 乘以小数的值,再向下取整,该函数写为:f(key) = floor(m * (key * A % 1))

其中,(key * A % 1)是取(key * A)的小数部分,该函数涉及到参数A的取值问题。Knuth认为,A = (sqrt(5)-1)/2 = 0.6180339877...是个比较理想的值,事实上,该点就是黄金分割点。

除法散列法乘法散列法是较为常用的哈希函数设计方法,事实上方法还有很多种,如全域散列法折叠法数字分析法等,更多的介绍请参考相关书籍。

四、冲突处理

前面提到,为了节省空间,表中槽的数目小于关键字的数目,只是通过设计好的哈希函数不可能完全避免冲突。下面介绍两种解决冲突的方法:链接法开放定址法

1.链接法(chaining)

链接法的思路很简单:如果多个关键字映射到了哈希表的同一个位置处(将这些关键字称为同义词),则将这些同义词记录在同一个线性链表中,该槽有一个指针,它指向存储所有散列到该槽的元素的链表表头,如下图所示:

图中,关键字k1k4映射到了哈希表的同一个位置处,k5、k2、k7映射到了哈希表的同一个位置处。《算法导论》提到,为了更快地删除某个元素,可以将链表设计为双向链表。如果表是单链接的,则为了删除元素x,首先必须在表T[h(x,key)]中找到元素x,然后通过更改x的前去元素的next属性,把x从链表中删除。在单链表的情况下,删除和查找操作的渐近运行时间相同。另一个例子如下:

2.开放定址法(open addressing)

在开放定址法中,所有的元素都存放在散列表中,也即是说,每个表项或包含动态集合的一个元素,或为空,不再使用链表。哈希表中的槽t不仅向哈希函数值等于t的同义词开放,而且向哈希函数值不等于t的记录开放,允许以“抢占”的方式争取哈希地址。

该方法采用如下公式记性再散列:

F(key,i) = (f(key) + di) % len

其中,f(key)为哈希函数,len为哈希表长,di为增量序列,它可能有如下三种情况:

  • di = 1,2,3...m-1

  • di = 1,-1,4,-4,9,-9...k^2,-k^2

  • di为伪随机序列

采用第一种序列的叫做线性探测再散列,采用第二种序列的叫做二次探测再散列,采用第三种序列的叫做随机探测再散列。说白了,就是在发生冲突时,将关键字应该放入的位置向前或向后移动若干位置,比如采取第一种序列时,如果遇到冲突,就向后移动一个位置来检测,如果还发生冲突,继续向后移动,直到遇到一个空槽,则将该关键字插入到该位置处。

线性探测比较容易实现,但是它存在一个问题,称为一次群集。随着连续被占用的槽不断增加,平均查找时间也随之不断增加,群集现象很容易出现,这是因为当一个空槽前有i个满槽时,该空槽为下一个将被占用的概率为(di+1)len。

同样采用二次探测的方法,会产生二次群集,因为每次遇到冲突时,寻找插入位置时都是在跳跃性前进或后退,因此这个相对于一次群集来说,比较轻度。

五、一些例子

已知关键字序列:26,36,41,38,44,15,68,12,06,51,25

用除法散列法构造哈希函数,线性探测再散列法解决冲突。现在需要:①建哈希表;②求查找成功和失败的平均搜索长度(ASL)。

解法:题中关键字个数n = 11,设装载因子α = 0.75m = n / α,取m为素数13。哈希函数:f(key) = key % 13,以下图片给出了建哈希表的步骤:

哈希表的查找性能分析:

六、代码实现

下面用代码实现一个哈希表,这里采用链接法来处理冲突,描述数据结构的头文件的代码如下:

#define M 7     //哈希函数中的除数,必须小于等于表长
typedef int ElemType;// 该哈希表采用链接法解决冲突问题typedef struct Node
{   //Node为链表节点的数据结构ElemType data;struct Node *next;
}Node,*pNode;// 哈希表每个槽的数据结构
typedef struct HashNode
{   pNode first;    // first指向链表的第一个节点
}HashNode,*HashTable;// 创建哈希表
HashTable create_HashTable(int);// 在哈希表中查找数据
pNode search_HashTable(HashTable, ElemType);// 插入数据到哈希表
bool insert_HashTable(HashTable,ElemType);// 从哈希表中删除数据
bool delete_HashTable(HashTable,ElemType);// 销毁哈希表
void destroy_HashTable(HashTable,int);

首先建立一个空哈希表,而然后执行插入、删除、查询等操作,最后销毁哈希表,哈希表的实现代码如下:

#include<stdio.h>
#include<stdlib.h>
#include "data_structure.h"// 创建n个槽的哈希表
HashTable create_HashTable(int n)
{int i;HashTable hashtable = (HashTable)malloc(n*sizeof(HashNode));if(!hashtable){printf("hashtable malloc faild,program exit...");exit(-1);}// 将哈希表置空for(i=0;i<n;i++)hashtable[i].first = NULL;return hashtable;
}// 在哈希表中查找数据,哈希函数为H(key)=key % M
// 查找成功则返回在链表中的位置
// 查找不成功则返回NULL
pNode search_HashTable(HashTable hashtable, ElemType data)
{if(!hashtable)return NULL;pNode pCur = hashtable[data%M].first;while(pCur && pCur->data != data)pCur = pCur->next;return pCur;
}// 向哈希表中插入数据,哈希函数为H(key)=key%M
// 如果data已存在,则返回fasle
// 否则,插入对应链表的最后并返回true
bool insert_HashTable(HashTable hashtable,ElemType data)
{// 如果已经存在,返回falseif(search_HashTable(hashtable,data))return false;// 否则为插入数据分配空间pNode pNew = (pNode)malloc(sizeof(Node));if(!pNew){printf("pNew malloc faild,program exit...");exit(-1);}pNew->data = data;pNew->next = NULL;// 将节点插入到对应链表的最后pNode pCur = hashtable[data%M].first;if(!pCur)   // 插入位置为链表第一个节点的情况hashtable[data%M].first = pNew;else    // 插入位置不是链表第一个节点的情况{   // 只有用pCur->next才可以将pNew节点连到链表上,// 用pCur连不到链表上,而是连到了pCur上// pCur虽然最终指向链表中的某个节点,但是它并不在链表中while(pCur->next)pCur = pCur->next;pCur->next = pNew;}return true;
}// 从哈希表中删除数据,哈希函数为H(key)=key % M
// 如果data不存在,则返回fasle,
// 否则,删除并返回true
bool delete_HashTable(HashTable hashtable,ElemType data)
{// 如果没查找到,返回falseif(!search_HashTable(hashtable,data))return false;// 否则,删除数据pNode pCur = hashtable[data%M].first;pNode pPre = pCur;  // 被删节点的前一个节点,初始值与pCur相同if(pCur->data == data)  // 被删节点是链表的第一个节点的情况hashtable[data%M].first = pCur->next;else{   // 被删节点不是第一个节点的情况while(pCur && pCur->data != data){pPre = pCur;pCur = pCur->next;}pPre->next = pCur->next;}free(pCur);pCur = 0;return true;
}// 销毁槽数为n的哈希表
void destroy_HashTable(HashTable hashtable,int n)
{int i;// 先逐个链表释放for(i=0;i<n;i++){pNode pCur = hashtable[i].first;pNode pDel = NULL;while(pCur){pDel = pCur;pCur = pCur->next;free(pDel);pDel = 0;}}// 最后释放哈希表free(hashtable);hashtable = 0;
}

最后测试代码:

#include<stdio.h>
#include "data_structure.h"int main()
{int len = 15;   // 哈希表长,亦即表中槽的数目printf("We set the length of hashtable %d\n",len);//创建哈希表并插入数据HashTable hashtable = create_HashTable(len);if(insert_HashTable(hashtable,1))printf("insert 1 success\n");else printf("insert 1 fail,it is already existed in the hashtable\n");if(insert_HashTable(hashtable,8))printf("insert 8 success\n");else printf("insert 8 fail,it is already existed in the hashtable\n");if(insert_HashTable(hashtable,3))printf("insert 3 success\n");else printf("insert 3 fail,it is already existed in the hashtable\n");if(insert_HashTable(hashtable,10))printf("insert 10 success\n");else printf("insert 10 fail,it is already existed in the hashtable\n");if(insert_HashTable(hashtable,8))printf("insert 8 success\n");else printf("insert 8 fail,it is already existed in the hashtable\n");//查找数据pNode pFind1 = search_HashTable(hashtable,10);if(pFind1)printf("find %d in the hashtable\n",pFind1->data);      else printf("not find 10 in the hashtable\n");pNode pFind2 = search_HashTable(hashtable,4);if(pFind2)printf("find %d in the hashtable\n",pFind2->data);      else printf("not find 4 in the hashtable\n");//删除数据if(delete_HashTable(hashtable,1))printf("delete 1 success\n");else printf("delete 1 fail");pNode pFind3 = search_HashTable(hashtable,1);if(pFind3)printf("find %d in the hashtable\n",pFind3->data);      else printf("not find 1 in the hashtable,it has been deleted\n");// 销毁哈希表destroy_HashTable(hashtable,len);return 0;
}

七、参考资料

《算法导论》 第三版 (美)科曼(Cormen,T.H.) 等著,殷建平 等译
http://blog.csdn.net/ns_code

数据结构与算法分析:哈希表相关推荐

  1. 数据结构实验:哈希表

    数据结构实验:哈希表 题目描述 在n个数中,找出出现次数最多那个数字,并且输出出现的次数.如果有多个结果,输出数字最小的那一个. 输入 单组数据,第一行数字n(1<=n<=100000). ...

  2. j - 数据结构实验:哈希表_一看就懂的数据结构基础「哈希表」

    哈希表 哈希表(Hash table),是存储键值(Key Value)对数据的一种数据结构. 例如,我们可以将人的名字作为键,性别作为值来存储.通过把键映射到表中的一个位置来访问数据,以提高查找速度 ...

  3. 数据结构 链式哈希表(Hash Table)的接口定义与实现分析(完整代码)

    链式哈希表的接口定义 关于哈希表与链式哈希表的描述可以参阅:http://www.cnblogs.com/idreamo/p/7990860.html 链式哈希表的操作与属性有:初始化.销毁.插入元素 ...

  4. python hash表_python数据结构与算法——哈希表

    哈希表 学习笔记 参考翻译自:<复杂性思考> 及对应的online版本:http://greenteapress.com/complexity/html/thinkcomplexity00 ...

  5. 数据结构算法之哈希表

    哈希表也称作散列表,是介于链表和二叉树之间的一种结构体.因为这二者之间各有优缺点,链表的插入和删除操作可以在O(1)内实现,很方便,但是查询操作很麻烦,二叉树的数据排序严格有序,但是需要建立在大量的指 ...

  6. 数据结构学习笔记 哈希表(一) 哈希表基础与哈希函数

    ------HR:The first question is what you do if you have a conflict with your manager ? ------You:Hash ...

  7. 数据结构与算法——哈希表

    哈希表 看一个实际需求,google公司的一个上机题: 有一个公司,当有新的员工来报道时,要求将该员工的信息加入(id,性别,年龄,住址-)当输入该员工的id时,要求查找到该员工的所有信息. 要求: ...

  8. 内核数据结构之认识哈希表

    关于哈希表 散列表(Hash table,也叫哈希表),是根据关键码值(Key value)而直接进行访问的数据结构.也就是说,它通过把关键码值映射到表中一个位置来访问记录,以加快查找的速度.这个映射 ...

  9. JavaScript数据结构之 —— 08哈希表

    散列算法(也就是哈希)的作用是尽可能快地在数据结构中找到一个值.在之前如果要在数据结构中获得一个值(使用get方法),需要遍历整个数据结构来找到它. 所有元素根据和该元素对应的键,保存在数组的特定位置 ...

  10. C - 数据结构实验:哈希表

    Description 在n个数中,找出出现次数最多那个数字,并且输出出现的次数.如果有多个结果,输出数字最小的那一个. Input 单组数据,第一行数字n(1<=n<=100000). ...

最新文章

  1. HTTP 请求头中的 Remote_Addr,X-Forwarded-For,X-Real-IP
  2. 设置tomcat管理员的用户名和密码
  3. python快速入门 pdf-Python快速入门PDF高清完整版本下载
  4. itchat 动态注册
  5. java读取doc文档
  6. gpu超算算法_科学网—GPU“虎山”探未来
  7. 机器学习实战--决策树算法
  8. Just do it
  9. HDU2524 矩形A + B【组合计算】
  10. TCP连接保活之Keepalive
  11. Python分布式爬虫打造搜索引擎(四)
  12. history。go(-1)
  13. (CMA-ES源码)协方差自适应进化策略(Covariance Matrix Adaptation Evolution Strategy,CMA-ES)——最好的单目标进化算法?
  14. Java-事务的传播特性和隔离级别
  15. Android11.0(R) MTK6771 平板横屏方案修改(强制app横屏 + 开机logo/动画+关机充电横屏 + RecoveryUI 横屏)
  16. 寒假每日一题题解(1.29)摘花生(DP水题)
  17. cs6制作拼图游戏 dreamweaver_Dreamweaver制作拼图步骤
  18. DenseBox: Unifying Landmark Localization with End to End Object Detection
  19. 三种方法实现选择问题
  20. php实现通讯录按字母分组,通讯录首字母检索功能实现

热门文章

  1. 庆祝一下_为了庆祝超级游戏
  2. Android端使用NFC获取物理卡号
  3. vbnet 操作CAD 之块的制作
  4. matlab 信号噪声星座图,QPSK误码率和星座图MATLAB仿真
  5. 阿里云EMR 2.0:重新定义新一代开源大数据平台
  6. delphi中的.dpr、.pas和.dfm文件都怎么解释?
  7. 科普 | 空调、地暖、风冷热泵、新风机组等设备是如何运行的
  8. 西贡小姐---英:克劳德-米歇尔•勋伯格和阿兰•鲍伯利
  9. 【模型复现】逆合成预测/文本分类模型——MeGAN 快速复现
  10. 2021-11-21 WPF上位机 94-Modbus通信数据交换问题