关于作者

郭孝星,程序员,吉他手,主要从事Android平台基础架构方面的工作,欢迎交流技术方面的问题,可以去我的Github提issue或者发邮件至guoxiaoxingse@163.com与我交流。

文章目录`

  • 一 散列的概念与应用场景

    • 1.1 哈希冲突
  • 二 散列的操作与源码实现
    • 2.1 HashMap/HashSet的实现原理

更多文章:github.com/guoxiaoxing…

一 散列的概念与应用场景

散列是一种对信息的处理方法,通过特定的算法将要检索的项与用来检索的索引(散列值)关联起来,生成一种便于搜索的数据结构散列表。

散列的应用

  • 加密散列:在信息安全使用,例如SHA-1加密算法。
  • 散列表:一种使用散列喊出将键名与键值关联起来的数据结构。
  • 关联数组:一种使用散列表实现的数据结构。
  • 几何散列:查询相同或相似几何形状的一种有效方法。

我们主要来讨论散列表的应用,散列值也即哈希值,提到哈希值,我们不禁会联想到Java里到hashCode()方法与equals()方法。

hashCode()方法返回该对象的哈希码值,在一次Java应用运行期间,如果该对象上equals()方法里比较的信息没有修改,则对该对象多次调用hashCode()方法时返回
相同的整数。

从这个定义我们可以了解到以下几点:

  • 当equals()方法被重写时,通常有必要重写hashCode()方法,以维护hashCode()方法的常规协定,该协定声明相等对象必须具有相等的哈希码。
  • hashCode的存在主要用来提升查找的快捷性,HashMap、Hashtable等用hashCode来确定散列表中对象的存储地址。
  • 两个对象相同,则两个对象的hashCode相同,反过来却不一定,hashCode相同只能说明这两个对象放在散列表里的同一个"篮子"里。

我们再重写hashCode()方法时,通常用以下方式来计算hashCode:

1 将一个非0的常数值保存到一个名为result的int型变量中。
2 分别计算每个域的散列码并相加求和,散列码的生成规则如下:

  • byte、char、short、int: (int)(value)
  • long: (int)(value ^ (value >>> 32))
  • boolean: value == false ? 0 : 1
  • float: Float.floatToIntBits(value)
  • double: Double.doubleToLongBits(value)
  • 引用类型:value.hashCode()

1.1 哈希冲突

通过上面的描述,我们可以知道散列表主要面临的问题是散列值均匀的分布,而我们主要解决的问题是在散列值在计算的时候出现的冲突问题,即出现
了两个相同的散列值,通常这也成为哈希冲突。Java在解决哈希冲突上,使用了一种叫做分离链接法的方法。

分离链接法将拥有相同哈希值的所有元素保存到同一个单向链表中,所以这种散列表整体上是一个数组,数组里面存放的元素时单向链表。

这样方法有个叫负载因子的概念,负载因子 = 元素个数 / 散列表大小.

负载因子是空间利用率与查找效率的一种平衡。

  • 负载因子越大表示散列表装填程度越高,空间利用率越高,但对应的查找效率就越低。
  • 负载因子越小表示散列表装填程度越低,空间利用率越低,但对应的查找效率就越高。

Java集合里的HashMap就使用了这种方法,我们会在下面的HashMap源码分析了详细讨论这种方法的实现。

二 散列的操作与源码实现

2.1 HashMap/HashSet的实现原理

HashMap基于数组实现,数组里的元素是一个单向链表。

HashMap具有以下特点:

  • 基于数组实现,数组里的元素是一个单向链表。
  • 键不可以重复,值可以重复,键、值都可以为null
  • 非线程安全

HashMap实现了以下接口:

  • Map:以键值对的形式存取元素
  • Cloneable:可以被克隆
  • Serializable:可以序列化

成员变量

//初始同乐,初始容量必须为2的n次方
static final int DEFAULT_INITIAL_CAPACITY = 4;//最大容量为2的30次方
static final int MAXIMUM_CAPACITY = 1 << 30;//默认负载因子为0.75f
static final float DEFAULT_LOAD_FACTOR = 0.75f;//默认的空表
static final HashMapEntry<?,?>[] EMPTY_TABLE = {};//存储元素的表
transient HashMapEntry<K,V>[] table = (HashMapEntry<K,V>[]) EMPTY_TABLE;//集合大小
transient int size;//下次扩容阈值,size > threshold就会进行扩容,扩容阈值 = 容量 * 负载因子。
int threshold;//加载因此
final float loadFactor = DEFAULT_LOAD_FACTOR;//修改次数
transient int modCount;复制代码

从这个结构transient HashMapEntry[] table = (HashMapEntry[]) EMPTY_TABLE可以看出,HashMap基于数组实现,数组里的元素是一个单向链表
HashMap使用哈希算法将key散列成一个int值,这个值就对应了这个数组的下标,所以你可以知道,如果两个key的哈希值相等,则它们会被放在当前下表的单向链表中。

这里我们着重介绍一下负载因子,它是空间利用率与查找效率的一种平衡。

  • 负载因子越大表示散列表装填程度越高,空间利用率越高,但对应的查找效率就越低。
  • 负载因子越小表示散列表装填程度越低,空间利用率越低,但对应的查找效率就越高。

内部类

static class HashMapEntry<K,V> implements Map.Entry<K,V> {//键final K key;//值V value;//后继的引用HashMapEntry<K,V> next;//哈希值int hash;HashMapEntry(int h, K k, V v, HashMapEntry<K,V> n) {value = v;next = n;key = k;hash = h;}public final K getKey() {return key;}public final V getValue() {return value;}public final V setValue(V newValue) {V oldValue = value;value = newValue;return oldValue;}public final boolean equals(Object o) {if (!(o instanceof Map.Entry))return false;Map.Entry e = (Map.Entry)o;Object k1 = getKey();Object k2 = e.getKey();if (k1 == k2 || (k1 != null && k1.equals(k2))) {Object v1 = getValue();Object v2 = e.getValue();if (v1 == v2 || (v1 != null && v1.equals(v2)))return true;}return false;}public final int hashCode() {return Objects.hashCode(getKey()) ^ Objects.hashCode(getValue());}public final String toString() {return getKey() + "=" + getValue();}//当向HashMao里添加元素时调用此方法,这里提供给子类实现void recordAccess(HashMap<K,V> m) {}//当从HashM里删除元素时调用此方法,这里提供给子类实现void recordRemoval(HashMap<K,V> m) {}}复制代码

HashMapEntry用来描述HashMao里的元素,它保存了键、值、后继的引用与哈希值。

构造方法


//提供初始容量和负载因子进行构造
public HashMap(int initialCapacity, float loadFactor) {if (initialCapacity < 0)throw new IllegalArgumentException("Illegal initial capacity: " +initialCapacity);if (initialCapacity > MAXIMUM_CAPACITY) {initialCapacity = MAXIMUM_CAPACITY;} else if (initialCapacity < DEFAULT_INITIAL_CAPACITY) {initialCapacity = DEFAULT_INITIAL_CAPACITY;}if (loadFactor <= 0 || Float.isNaN(loadFactor))throw new IllegalArgumentException("Illegal load factor: " +loadFactor);// Android-Note: We always use the default load factor of 0.75f.// This might appear wrong but it's just awkward design. We always call// inflateTable() when table == EMPTY_TABLE. That method will take "threshold"// to mean "capacity" and then replace it with the real threshold (i.e, multiplied with// the load factor).threshold = initialCapacity;init();
}//提供初始容量进行构造
public HashMap(int initialCapacity) {this(initialCapacity, DEFAULT_LOAD_FACTOR);
}//空构造方法
public HashMap() {this(DEFAULT_INITIAL_CAPACITY, DEFAULT_LOAD_FACTOR);
}//提供一个Map进行构造
public HashMap(Map<? extends K, ? extends V> m) {this(Math.max((int) (m.size() / DEFAULT_LOAD_FACTOR) + 1,DEFAULT_INITIAL_CAPACITY), DEFAULT_LOAD_FACTOR);inflateTable(threshold);putAllForCreate(m);
}复制代码

操作方法

put
public class HashMap<K,V>extends AbstractMap<K,V>implements Map<K,V>, Cloneable, Serializable{public V put(K key, V value) {if (table == EMPTY_TABLE) {inflateTable(threshold);}if (key == null)//如果key为null,则将其放在table[0]的位置return putForNullKey(value);//根据key计算hash值int hash = sun.misc.Hashing.singleWordWangJenkinsHash(key);//根据hash值和数组容量,找到索引值int i = indexFor(hash, table.length);//遍历table[i]位置的链表,查找相同的key,若找到则则用新的value替换掉oldValuefor (HashMapEntry<K,V> e = table[i]; e != null; e = e.next) {Object k;if (e.hash == hash && ((k = e.key) == key || key.equals(k))) {V oldValue = e.value;e.value = value;e.recordAccess(this);return oldValue;}}modCount++;//若没有查找到相同的key,则添加key到table[i]位置,新添加的元素总是添加在单向链表的表头位置,后面的元素称为它的后继addEntry(hash, key, value, i);return null;}//根据哈希值与数组容量计算索引位置,使用&代替取模,提升效率。static int indexFor(int h, int length) {// assert Integer.bitCount(length) == 1 : "length must be a non-zero power of 2";return h & (length-1);}void addEntry(int hash, K key, V value, int bucketIndex) {//如果达到了扩容阈值,则进行扩容,容量翻倍if ((size >= threshold) && (null != table[bucketIndex])) {resize(2 * table.length);hash = (null != key) ? sun.misc.Hashing.singleWordWangJenkinsHash(key) : 0;bucketIndex = indexFor(hash, table.length);}createEntry(hash, key, value, bucketIndex);}//新添加的元素总是添加在单向链表的表头位置,后面的元素称为它的后继void createEntry(int hash, K key, V value, int bucketIndex) {HashMapEntry<K,V> e = table[bucketIndex];table[bucketIndex] = new HashMapEntry<>(hash, key, value, e);size++;}
}复制代码

这个添加的流程还是比较简单的,这个流程如下:

  1. 根据key计算hash值,并根据hash值和数组容量,找到索引值,该位置即为存储该元素的链表所在处。
  2. 遍历table[i]位置的链表,查找相同的key,若找到则则用新的value替换掉oldValue.
  3. 若没有查找到相同的key,则添加key到table[i]位置,新添加的元素总是添加在单向链表的表头位置,后面的元素称为它的后继。

这里你可以看到HashMap使用了我们上面所说的分离链接法来解决哈希冲突的问题。

remove
public class HashMap<K,V>extends AbstractMap<K,V>implements Map<K,V>, Cloneable, Serializable{public V remove(Object key) {Entry<K,V> e = removeEntryForKey(key);return (e == null ? null : e.getValue());}final Entry<K,V> removeEntryForKey(Object key) {if (size == 0) {return null;}//计算哈希值,根据哈希值与数组容量计算它所在的索引,根据索引查找它所在的链表int hash = (key == null) ? 0 : sun.misc.Hashing.singleWordWangJenkinsHash(key);int i = indexFor(hash, table.length);HashMapEntry<K,V> prev = table[i];HashMapEntry<K,V> e = prev;//从起始节点开始遍历,查找要删除的元素,删除该节点,将节点的后继添加为它前驱的后继while (e != null) {HashMapEntry<K,V> next = e.next;Object k;if (e.hash == hash &&((k = e.key) == key || (key != null && key.equals(k)))) {modCount++;size--;if (prev == e)table[i] = next;elseprev.next = next;e.recordRemoval(this);return e;}prev = e;e = next;}return e;}
}复制代码

删除的流程如下所示:

  1. 计算哈希值,根据哈希值与数组容量计算它所在的索引,根据索引查找它所在的链表。
  2. 从起始节点开始遍历,查找要删除的元素,删除该节点,将节点的后继添加为它前驱的后继
get
public class HashMap<K,V>extends AbstractMap<K,V>implements Map<K,V>, Cloneable, Serializable{public V get(Object key) {if (key == null)return getForNullKey();Entry<K,V> entry = getEntry(key);return null == entry ? null : entry.getValue();}final Entry<K,V> getEntry(Object key) {if (size == 0) {return null;}//计算哈希值,根据哈希值与数组容量计算它所在的索引,根据索引查找它所在的链表int hash = (key == null) ? 0 : sun.misc.Hashing.singleWordWangJenkinsHash(key);//在单向链表中查找该元素for (HashMapEntry<K,V> e = table[indexFor(hash, table.length)];e != null;e = e.next) {Object k;if (e.hash == hash &&((k = e.key) == key || (key != null && key.equals(k))))return e;}return null;}}复制代码

查找的流程也十分简单,具体如下:

  1. 计算哈希值,根据哈希值与数组容量计算它所在的索引,根据索引查找它所在的链表。
  2. 在单向链表中查找该元素

Java关于数据结构的实现:散列相关推荐

  1. Java 国密算法 SM3 散列哈希使用

    Java 国密算法 SM3 散列哈希使用 文章目录 Java 国密算法 SM3 散列哈希使用 引入依赖 计算散列哈希 引入依赖 <dependency><groupId>org ...

  2. Java实现哈希函数/散列算法

    // 哈希函数/散列算法 // 根据某个值进行hash值计算,确保唯一性 public class HashUtils {private static final String ALGORITHM = ...

  3. Shiro框架:Shiro简介、登陆认证入门程序、认证执行流程、使用自定义Realm进行登陆认证、Shiro的MD5散列算法

    一.Shiro介绍: 1.什么是shiro: (1)shiro是apache的一个开源框架,是一个权限管理的框架,实现用户认证.用户授权. (2)spring中有spring security,是一个 ...

  4. 散列算法进行数据验证与加密

    散列算法进行数据验证与加密 散列算法 散列是信息的提炼,通常其长度要比信息小得多,且为一个固定长度.加密性强的散列一定是不可逆的,这就意味着通过散列结果,无法推出任何部分的原始信息.任何输入信息的变化 ...

  5. java 散列集_java数据结构之散列集HashSet与散列表Hashtable

    java数据结构之散列集HashSet与散列表Hashtable 1.散列集HashSet HashSet类在java.util包中 A.构造方法:HashSet() B.常用方法 public bo ...

  6. Erlang的散列数据结构

    介绍Erlang的dict模块( dictionary),dict就是一个通过散列(hash)来存放数据的组织方式,同时dict模块还提供了完整的操作接口,类似的模块还有orddict模块.具体讲如何 ...

  7. java集合——数组列表(ArrayList)+散列集(HashSet)

    [0]README 0.1) 本文描述+源代码均 转自 core java volume 1, 旨在理解 java集合--数组列表(ArrayList)+散列集(HashSet) 的相关知识: 0.2 ...

  8. 聊聊传说中的散列哈希Hash算法,以及Java中的HashTable,HashMap,HashSet,ConcurrentHashMap......

    建议本文结合java源码来阅读,看了之后就什么都懂了,还有参考文献. 散列(Hash) 是一种按关键字编址的存储和检索方法 散列表(HashTable)根据元素的关键字确定元素的位置 散列函数(Has ...

  9. 【算法详解】数据结构:7种哈希散列算法,你知道几个?

    一.前言 哈希表的历史 哈希散列的想法在不同的地方独立出现.1953 年 1 月,汉斯·彼得·卢恩 ( Hans Peter Luhn ) 编写了一份IBM内部备忘录,其中使用了散列和链接.开放寻址后 ...

  10. 数据结构和算法分析: 第五章 散列

    散列表的实现常常叫做散列.散列是一种用于以常数平均时间执行插入.删除和查找的技术. 5.1 一般想法 散列表的数据结构是一个包括一些项(item)的具有固定大小的数组.通常查找是对于项的某个部分(即数 ...

最新文章

  1. SAP PM 入门系列18 - IP25为维护计划 Set Deletion Flag
  2. 大数据产品开发流程规范_大数据技术思想入门(三):分布式文件存储的流程
  3. hive 字段不包含某个字符_hive之面试必问 hive调优
  4. python题目及解析_python知识点总结以及15道题的解析
  5. 以下关于CISC和RISC的叙述中,错误的是()【最全!最详细总结!】
  6. Difference between RawValue and FormattedValue
  7. php功能大马加密乱码,php大马加密工具 phpTrace:奇虎360开源的PHP脚”的相关知识...
  8. Run ASMX Without IIS
  9. OpenCV学习(二十) :分水岭算法:watershed()
  10. 血的案例告诫 | 模拟大批量数据测试边界上限
  11. SRS 启动正常,拉流没画面,看SRS日志报错 srs is already running
  12. 04 CoCos Creator-Please make sure java is installed and JAVA_HOME
  13. 2020年安卓各大应用市场份额占比分析
  14. python 微信公众号开发[1] 后台服务器端配置与公众号开发配置
  15. 【037】PhotoMosh–艺术故障图片在线生成器
  16. 【AI Studio】飞桨图像分类零基础训练营 - 03 - 卷积神经网络基础
  17. STM32 B3 B5 A13 A14 A15端口复用
  18. 计算机excel按F4是那个公式,excel中键盘F4到底怎么用?_excle 中的f4
  19. 人工智能在人力资源行业中的应用
  20. Java实现 LeetCode 520 检测大写字母

热门文章

  1. Objective-C的算术表达式
  2. 《软件开发这点事儿》作者邵志东老师视频发布
  3. 详解tf.nn.bias_add和tf.add、tf.add_n的区别
  4. 在Windows下正确安装Scipy与Numpy
  5. 「三分钟系列01」3分钟看懂快速排序
  6. numpy线性代数基础 - Python和MATLAB矩阵处理的不同
  7. NASNET-【论文理解】
  8. python升级版本后出现的yum错误
  9. centos安装apache+mysql_CentOS7安装apache+mysql+php环境
  10. 网和aoe网的区别_【专定网】你知道到亚克力鱼缸与超白缸的区别吗?测评结果给你答案...