作者 | 磊哥

来源 | Java面试真题解析(ID:aimianshi666)

转载请联系授权(微信ID:GG_Stone)

本文已收录《Java常见面试题》系列,开源地址:https://gitee.com/mydb/interview

HashSet 实现了 Set 接口,由哈希表(实际是 HashMap)提供支持。HashSet 不保证集合的迭代顺序,但允许插入 null 值。也就是说 HashSet 不能保证元素插入顺序和迭代顺序相同。HashSet 具备去重的特性,也就是说它可以将集合中的重复元素自动过滤掉,保存存储在 HashSet 中的元素都是唯一的。

1.HashSet 基本用法

HashSet 基本操作方法有:add(添加)、remove(删除)、contains(判断某个元素是否存在)和 size(集合数量)。这些方法的性能都是固定操作时间,如果哈希函数是将元素分散在桶中的正确位置。HashSet 基本使用如下:

// 创建 HashSet 集合
HashSet<String> strSet = new HashSet<>();
// 给 HashSet 添加数据
strSet.add("Java");
strSet.add("MySQL");
strSet.add("Redis");
// 循环打印 HashSet 中的所有元素
strSet.forEach(s -> System.out.println(s));

2.HashSet 无序性

HashSet 不能保证插入元素的顺序和循环输出元素的顺序一定相同,也就是说 HashSet 其实是无序的集合,具体代码示例如下:

HashSet<String> mapSet = new HashSet<>();
mapSet.add("深圳");
mapSet.add("北京");
mapSet.add("西安");
// 循环打印 HashSet 中的所有元素
mapSet.forEach(m -> System.out.println(m));

以上程序的执行结果如下:从上述代码和执行结果可以看出,HashSet 插入的顺序是:深圳 -> 北京 -> 西安,而循环打印的顺序却是:西安 -> 深圳 -> 北京,所以 HashSet 是无序的,不能保证插入和迭代的顺序一致

PS:如果要保证插入顺序和迭代顺序一致,可使用 LinkedHashSet 来替换 HashSet。

3.HashSet 错误用法

有人说 HashSet 只能保证基础数据类型不重复,却不能保证自定义对象不重复?这样说对吗?我们通过以下示例来说明此问题。

3.1 HashSet 与基本数据类型

使用 HashSet 存储基本数据类型,实现代码如下:

HashSet<Long> longSet = new HashSet<>();
longSet.add(666l);
longSet.add(777l);
longSet.add(999l);
longSet.add(666l);
// 循环打印 HashSet 中的所有元素
longSet.forEach(l -> System.out.println(l));

以上程序的执行结果如下:从上述结果可以看出,使用 HashSet 可以保证基础数据类型不重复。

3.2 HashSet 与自定义对象类型

接下来,将自定义对象存储到 HashSet 中,实现代码如下:

public class HashSetExample {public static void main(String[] args) {HashSet<Person> personSet = new HashSet<>();personSet.add(new Person("曹操", "123"));personSet.add(new Person("孙权", "123"));personSet.add(new Person("曹操", "123"));// 循环打印 HashSet 中的所有元素personSet.forEach(p -> System.out.println(p));}
}
@Getter
@Setter
@ToString
class Person {private String name;private String password;public Person(String name, String password) {this.name = name;this.password = password;}
}

以上程序的执行结果如下:从上述结果可以看出,自定义对象类型确实没有被去重,那也就是说 HashSet 不能实现自定义对象类型的去重咯?其实并不是,HashSet 去重功能是依赖元素的 hashCode 和 equals 方法判断的,通过这两个方法返回的都是 true 那就是相同对象,否则就是不同对象。而前面的 Long 类型元素之所以能实现去重,正是因为 Long 类型中已经重写了 hashCode 和 equals 方法,具体实现源码如下:

@Override
public int hashCode() {return Long.hashCode(value);
}
public boolean equals(Object obj) {if (obj instanceof Long) {return value == ((Long)obj).longValue();}return false;
}
//省略其他源码......

更多关于 hashCode 和 equals 的内容,详见:https://mp.weixin.qq.com/s/40zaEJEkQYM3Awk2EwIrWA

那么,想让 HashSet 支持自定义对象去重,只需要在自定义对象中重写 hashCode 和 equals 方法即可,具体实现代码如下:

@Setter
@Getter
@ToString
class Person {private String name;private String password;public Person(String name, String password) {this.name = name;this.password = password;}@Overridepublic boolean equals(Object o) {if (this == o) return true; // 引用相等返回 true// 如果等于 null,或者对象类型不同返回 falseif (o == null || getClass() != o.getClass()) return false;// 强转为自定义 Person 类型Person persion = (Person) o;// 如果 name 和 password 都相等,就返回 truereturn Objects.equals(name, persion.name) &&Objects.equals(password, persion.password);}@Overridepublic int hashCode() {// 对比 name 和 password 是否相等return Objects.hash(name, password);}
}

重新运行以上代码,执行结果如下图所示:从上述结果可以看出,之前的重复项“曹操”已经被去重了。

4.HashSet 如何保证元素不重复?

我们只要了解了 HashSet 执行添加元素的流程,就能知道为什么 HashSet 能保证元素不重复了?HashSet 添加元素的执行流程是:当把对象加入 HashSet 时,HashSet 会先计算对象的 hashcode 值来判断对象加入的位置,同时也会与其他加入的对象的 hashcode 值作比较,如果没有相符的 hashcode,HashSet 会假设对象没有重复出现,会将对象插入到相应的位置中。但是如果发现有相同 hashcode 值的对象,这时会调用对象的 equals() 方法来检查对象是否真的相同,如果相同,则 HashSet 就不会让重复的对象加入到 HashSet 中,这样就保证了元素的不重复。

为了更清楚的了解 HashSet 的添加流程,我们可以尝试阅读 HashSet 的具体实现源码,HashSet 添加方法的实现源码如下(以下源码基于 JDK 8):

// hashmap 中 put() 返回 null 时,表示操作成功
public boolean add(E e) {return map.put(e, PRESENT)==null;
}

从上述源码可以看出 HashSet 中的 add 方法,实际调用的是 HashMap 中的 put,那么我们继续看 HashMap 中的 put 实现:

// 返回值:如果插入位置没有元素则返回 null,否则返回上一个元素
public V put(K key, V value) {return putVal(hash(key), key, value, false, true);
}

从上述源码可以看出,HashMap 中的 put() 方法又调用了 putVal() 方法,putVal() 的源码如下:

final V putVal(int hash, K key, V value, boolean onlyIfAbsent,boolean evict) {Node<K, V>[] tab;Node<K, V> p;int n, i;//如果哈希表为空,调用 resize() 创建一个哈希表,并用变量 n 记录哈希表长度if ((tab = table) == null || (n = tab.length) == 0)n = (tab = resize()).length;/*** 如果指定参数 hash 在表中没有对应的桶,即为没有碰撞* Hash函数,(n - 1) & hash 计算 key 将被放置的槽位* (n - 1) & hash 本质上是 hash % n 位运算更快*/if ((p = tab[i = (n - 1) & hash]) == null)// 直接将键值对插入到 map 中即可tab[i] = newNode(hash, key, value, null);else {// 桶中已经存在元素Node<K, V> e;K k;// 比较桶中第一个元素(数组中的结点)的 hash 值相等,key 相等if (p.hash == hash &&((k = p.key) == key || (key != null && key.equals(k))))// 将第一个元素赋值给 e,用 e 来记录e = p;// 当前桶中无该键值对,且桶是红黑树结构,按照红黑树结构插入else if (p instanceof TreeNode)e = ((TreeNode<K, V>) p).putTreeVal(this, tab, hash, key, value);// 当前桶中无该键值对,且桶是链表结构,按照链表结构插入到尾部else {for (int binCount = 0; ; ++binCount) {// 遍历到链表尾部if ((e = p.next) == null) {p.next = newNode(hash, key, value, null);// 检查链表长度是否达到阈值,达到将该槽位节点组织形式转为红黑树if (binCount >= TREEIFY_THRESHOLD - 1) // -1 for 1sttreeifyBin(tab, hash);break;}// 链表节点的<key, value>与 put 操作<key, value>// 相同时,不做重复操作,跳出循环if (e.hash == hash &&((k = e.key) == key || (key != null && key.equals(k))))break;p = e;}}// 找到或新建一个 key 和 hashCode 与插入元素相等的键值对,进行 put 操作if (e != null) { // existing mapping for key// 记录 e 的 valueV oldValue = e.value;/*** onlyIfAbsent 为 false 或旧值为 null 时,允许替换旧值* 否则无需替换*/if (!onlyIfAbsent || oldValue == null)e.value = value;// 访问后回调afterNodeAccess(e);// 返回旧值return oldValue;}}// 更新结构化修改信息++modCount;// 键值对数目超过阈值时,进行 rehashif (++size > threshold)resize();// 插入后回调afterNodeInsertion(evict);return null;}

从上述源码可以看出,当将一个键值对放入 HashMap 时,首先根据 key 的 hashCode() 返回值决定该 Entry 的存储位置。如果有两个 key 的 hash 值相同,则会判断这两个元素 key 的 equals() 是否相同,如果相同就返回 true,说明是重复键值对,那么 HashSet 中 add() 方法的返回值会是 false,表示 HashSet 添加元素失败。因此,如果向 HashSet 中添加一个已经存在的元素,新添加的集合元素不会覆盖已有元素,从而保证了元素的不重复。如果不是重复元素,put 方法最终会返回 null,传递到 HashSet 的 add 方法就是添加成功。

总结

HashSet 底层是由 HashMap 实现的,它可以实现重复元素的去重功能,如果存储的是自定义对象必须重写 hashCode 和 equals 方法。HashSet 保证元素不重复是利用 HashMap 的 put 方法实现的,在存储之前先根据 key 的 hashCode 和 equals 判断是否已存在,如果存在就不在重复插入了,这样就保证了元素的不重复。

往期推荐

面试官:如何实现 List 集合去重?

面试官:元素排序Comparable和Comparator有什么区别?

面试官:HashMap有几种遍历方法?推荐使用哪种?

卒然临之而不惊,无故加之而不怒。

博主:80 后程序员。爱好:读书、写作和慢跑。

公众号:Java面试真题解析

面试官:HashSet是如何保证元素不重复的?相关推荐

  1. hash 值重复_面试题:HashSet是如何保证元素不重复的

    面试官:你能简单介绍List和Set有什么区别吗? 小憨: List是一个有序的集合,在内存是连续存储的,可以存储重复的元素,List查询快,增删慢: Set是一个无序的集合,在内存中不连续,不可以存 ...

  2. 面试官问我如何保证Kafka不丢失消息?我哭了!

    kafka如何保证不丢消息 ps:这篇文章自我感觉说的很大白话了!希望你们看过了之后能有收获. 不了解 Kafka 的朋友建议先看一看我的下面这几篇文章,第一篇一定要看,其他的可以按需学习. 入门篇! ...

  3. 面试官问: 如何保证 MQ消息是有序的?

    为了系统间解耦,我们通常会引入MQ框架,大家各司其职共同完成上下游的业务流程. 大致过程: 生产端,创建一条消息,通过网络发送到MQ Server MQ将 消息存储在topic 的一个分区里 消费端, ...

  4. 面试官:给我一个避免消息重复消费的解决方案?

    欢迎关注方志朋的博客,回复"666"获面试宝典 消息中间件是分布式系统常用的组件,无论是异步化.解耦.削峰等都有广泛的应用价值. 我们通常会认为,消息中间件是一个可靠的组件--这里 ...

  5. 面试官:this和super有什么区别?this能调用到父类吗?

    作者:磊哥 来源 | Java面试真题解析(ID:aimianshi666) 转载请联系授权(微信ID:GG_Stone) 本文已收录<Java常见面试题>:https://gitee.c ...

  6. 知乎高赞:如果你是一个 Java 面试官,你会问哪些问题....

    注:本文内容选自公众号<Java面试题精选>,内容比较丰富,帮助大家做面试前的准备,可以省不少时间.欢迎收藏点赞,也欢迎去围观原号主! 不断收集整理,汇总网上面试知识点,方便面试前刷题,希 ...

  7. 跟Java面试官对线的一天!唬住就要50K,唬不住就要5K

    个人面经 前言 JVM篇 计网篇 Java基础篇 多线程篇 Spring框架篇 MyBatis框架篇 MySQL篇 Redis篇 分布式.微服务篇 小结 前言 不积跬步无以至千里,不积小流无以成江海 ...

  8. 【真实面试经历】我和阿里面试官的一次“邂逅”(附问题详解)

    本文的内容都是根据读者投稿的真实面试经历改编而来,首次尝试这种风格的文章,花了几天晚上才总算写完,希望对你有帮助..已经收录自 Guide 哥开源的 JavaGuide 中.本文主要涵盖下面的内容: ...

  9. 面试官:为什么在系统中不推荐双写?

    引言 某日,阿雄跑去面试!于是有如下情形 面试官:"阿雄是吧,做做自我介绍!" 阿  雄:"我叫阿雄,来自某a国际电商公司!" 面试官:"我看你项目里 ...

最新文章

  1. html滑动逐渐覆盖效果,创意jQuery和CSS3滑动覆盖响应式幻灯片特效
  2. python编程电子书下载-python编程初学者指南
  3. SAP Control Framework 丢失事件?
  4. ES6-13 正则方法、修饰符yus、UTF_16编码方式
  5. 分布式服务下的关键技术(转)
  6. vscode 不能运行h5c3代码_让开发效率“飞起”的VS Code 插件
  7. Go语言通过odbc驱动连接华为高斯数据库
  8. mysql表空间界限_MySQL5.7 import表结构报错超出表空间界限
  9. 多视角半监督学习:从文本数据中得到不同视角
  10. mysql事务管理(重)
  11. 每天一个Linux命令-cat
  12. 为什么说java语言是支持跨平台的
  13. Creating DataFrames spark当中重要的部分DataFrames
  14. 手机浏览器一键跳转微信加好友的方法
  15. 一套OA系统需要多少钱?
  16. 最终结束漂泊的身份-我办理北京人才引进的经历
  17. Reptile_02 json网页爬虫QQ华晨宇音乐
  18. 人类高质量文章:阿里大佬的回顾
  19. 关于海思HI3518+OV9712 ISP图像调试 - 夜视效果、曝光、图像稳定响应效果
  20. SEC6 - MySQL 查询语句--------------进阶2:条件查询

热门文章

  1. sat2 计算机科目,2019-2020年SAT2考试时间及Top100大学要求
  2. python列表生成器语法_python列表生产式和生成器
  3. java电子通讯录毕业设计_(C)JAVA001电子通讯录(带系统托盘)
  4. python自定义模块和三方模块_python基础知识8——模块1——自定义模块和第三方开源模块...
  5. map与weakmap,ES6 Map和WeakMap有什么区别?
  6. Linux namespace之:uts namespace
  7. Ubuntu 修改 hostname
  8. Android 物联网 传感器
  9. Linux的启动流程简析(以Debian为例)
  10. 前端架构设计1:代码核心