【数据结构笔记40】哈希表冲突处理方法：开放地址法（线性探测、平方探测、双散列、再散列），分离链接法

本次笔记内容：
11.3.1 开放定址法
11.3.2 线性探测
11.3.3 线性探测-字符串的例子
11.3.4 平方探测法
11.3.5 平方探测的实现
11.3.6 分离链接法

文章目录

冲突处理方法常见思路
散列表查找性能分析
开放地址法（Open Addressing）
- 线性探测法（Linear Probing）
- 线性函数：字符串例子
- 平方探测法（Quadratic Probing）
- 平方探测法的实现
- 双散列探测法（Double Hashing）
- 再散列（Rehashing）
分离链接法（Separate Chaining）

冲突处理方法常见思路

换个位置：开放地址法；
同一位置的冲突对象组织在一起：链地址法。

散列表查找性能分析

成功平均查找长度（ASLs）
不成功平均查找长度（ASLu）

比如：

如上图，ASLs即找每个元素的平均查找次数，即数字11需要查找1次（1+0次冲突次数）；数字30需要查找7次（1+6次冲突次数）。

ASLu即，对于不存在的元素，如22、33（其余数为0），需要查找3次（3次后移动到空位上），才能确认不存在。对每一类余数加和求平均。

开放地址法（Open Addressing）

一旦产生了冲突（改地址已有其他元素），就按某种规则取寻找另一空地址。

若发生了第i次冲突，试探的下一个地址将增加did_idi，基本公式是hi(key)=(h(key)+di)modTableSize(1≤i<TableSize)h_i(key)=(h(key)+d_i) \; mod \; TableSize (1 \le i < TableSize)hi(key)=(h(key)+di)modTableSize(1≤i<TableSize)

其中，did_idi决定了不同的解决冲突方案：线性探测(di=id_i=idi=i)、平方探测(di±i2d_i \pm i^2di±i2)、双散列(di=i×h2(key)d_i=i \times h_2(key)di=i×h2(key))。

线性探测法（Linear Probing）

线性探测法：以增量序列1,2,…,(TableSize-1)循环试探下一个存储地址。

示例如下。

题目如上图。

如上图，线性探测会形成“聚集现象”。即数都聚在一起了。

线性函数：字符串例子

例子如上图，很简单。

平方探测法（Quadratic Probing）

平方探测法：以增量序列12,−12,22,−22,...,q2,−q21^2,-1^2,2^2,-2^2,...,q^2,-q^212,−12,22,−22,...,q2,−q2且q≤⌊TableSize/2⌋q \le \lfloor TableSize / 2 \rfloorq≤⌊TableSize/2⌋循环试探下一个存储地址。

此例子与线性探测所举相同。

如上图其ASLs在此例中好于线性探测2.56。

但是二次探测存在一个问题，即：在有空间的情况下，也不一定能找到空间。

如上图，上面展示了一个通过二次探测却无法找到空间的例子。

但是，有定理：如果散列表长度TableSize是某个4k+3（k是正整数）形式的素数时，平方探测法就可以探查到整个散列表空间。

平方探测法的实现

typedef struct HashTbl *HashTable;
struct HashTbl
{int TableSize;Cell *TheCells;
} H;HashTable InitializeTable(int TableSize)
{HashTable H;int i;if (TableSize < MinTableSize){Error("散列表太小");return NULL;}// 分配散列表H = (HashTable)malloc(sizeof(struct HashTbl));if (H == NULL)FatalError("空间溢出!!!");H->TableSize = NextPrime(TableSize);    // 找一个素数// 分配散列表 CellsH->TheCells = (Cell *)malloc(sizeof(Cell) * H->TableSize);if (H->TheCells == NULL)FatalError("空间溢出!!!");for (i = 0; i < H->TableSize; i++)H->TheCells[i].info = Empty;return H;
}

如上图，之所以留一个info变量，是因为考虑到删除操作时如果直接将元素置为空，则会产生问题，因此info可以表示“Deleted”已删除。

Position Find(ElementType Key, HashTable H)
{// 平方探测Position CurrentPos, NewPos;int CNum;CNum = 0;NewPos = CurrentPos = Hash(Key, H->TableSize);while (H->TheCells[NewPos].info != Empty &&H->TheCells[NewPos].Element != Key)){// 字符串类型的关键词需要strcmp函数if (++cNum % 2){// 判断奇偶NewPos = CurrentPos + (CNum + 1) / 2 * (CNum + 1) / 2;while (NewPos >= H->TableSize)NewPos -= H->TableSize;}else{NewPos = CurrentPos - CNum / 2 * CNum / 2;while (NewPos < 0)NewPos += H->TableSizee;}}return NewPos;
}

如上为查找新位置操作。判定Cnum奇偶是为了在did_idi与Cnum间建立起映射。

映射关系如上图所示。

void Insert(ElementType Key, Hashtable H)
{Position Pos;Pos = Find(Key, H);if (H->TheCells[Pos].info != Lengitimate){// 确认在此插入H->TheCells[Pos].info = Legitimate;H->TheCells[Pos].Element = Key;// 字符串类型的关键词需要strcpy函数}
}

插入操作如上。在开放地址散列表中，删除操作要很小心。通常只能 “懒惰删除” ，即需要增加一个 “删除标记（Deleted）” ，而并不是真正删除它。以便查找时不会 “断链” 。其空间可以在下次插入时重用。

双散列探测法（Double Hashing）

偏移量也通过hash映射出来。

did_idi为i∗h2(key)i*h_2(key)i∗h2(key)，h2(key)h_2(key)h2(key)是另一个散列函数。探测序列成：h2(key),2h2(key),3h2(key),..h_2(key),2h_2(key),3h_2(key),..h2(key),2h2(key),3h2(key),..

对任意的key，h2(key)≠0h_2(key) \ne 0h2(key)=0；
探测序列还应该保证所有的散列存储单元都应该能够被探测到。选择以下形式有良好的效果：h2(key)=p−(keymodp)h_2(key)=p-(key \; mod \; p)h2(key)=p−(keymodp)

其中：p<TableSizep < TableSizep<TableSize，p、TableSize都是素数。

再散列（Rehashing）

当散列表元素太多（即装填因子α太大）时，查找效率会下降；
可以考虑将散列表扩大，如从11变成23；
当扩大后，需要重新插入元素；
实用最大装填因子一般取0.5≤α≤0.850.5 \le \alpha \le 0.850.5≤α≤0.85；
当装填因子过大时，解决的方法是加倍扩大散列表，这个过程叫做“再散列（Rehashing）”。

分离链接法（Separate Chaining）

将相应位置上冲突的所有关键词存储在同一个单链表中。

链地址法如上图。

typedef struct ListNode *Position, *List;
struct ListNode
{ElementType Element;Position Next;
};typedef struct HashTbl *HashTable;
struct HashTbl
{int TableSize;List TheLists;
};Position Find(ElementType Key, HashTable H)
{Position P;int Pos;Pos = Hash(Key, H->TableSize); // 初始散列表位置P = H->TheLists[Pos].Next;     // 获得链表头while (P != NULL && strcmp(P->Element, Key))P = P->Next;return P;
}