数据结构思维 第十一章 `HashMap`
第十一章 HashMap
原文:Chapter 11 HashMap
译者:飞龙
协议:CC BY-NC-SA 4.0
自豪地采用谷歌翻译
上一章中,我们写了一个使用哈希的Map
接口的实现。我们期望这个版本更快,因为它搜索的列表较短,但增长顺序仍然是线性的。
如果存在n
个条目和k
个子映射,则子映射的大小平均为n/k
,这仍然与n
成正比。但是,如果我们与n
一起增加k
,我们可以限制n/k
的大小。
例如,假设每次n
超过k
的时候,我们都使k
加倍;在这种情况下,每个映射的条目的平均数量将小于1
,并且几乎总是小于10
,只要散列函数能够很好地展开键。
如果每个子映射的条目数是不变的,我们可以在常数时间内搜索一个子映射。并且计算散列函数通常是常数时间(它可能取决于键的大小,但不取决于键的数量)。这使得Map
的核心方法, put
和get
时间不变。
在下一个练习中,您将看到细节。
11.1 练习 9
在MyHashMap.java
中,我提供了哈希表的大纲,它会按需增长。这里是定义的起始:
public class MyHashMap<K, V> extends MyBetterMap<K, V> implements Map<K, V> {// average number of entries per sub-map before we rehashprivate static final double FACTOR = 1.0;@Overridepublic V put(K key, V value) {V oldValue = super.put(key, value);// check if the number of elements per sub-map exceeds the thresholdif (size() > maps.size() * FACTOR) {rehash();}return oldValue;}
}
MyHashMap
扩展了MyBetterMap
,所以它继承了那里定义的方法。它覆盖的唯一方法是put
,它调用了超类中的put
– 也就是说,它调用了MyBetterMap
中的put
版本 – 然后它检查它是否必须rehash
。调用size
返回总数量n
。调用maps.size
返回内嵌映射的数量k
。
常数FACTOR
(称为负载因子)确定每个子映射的平均最大条目数。如果n > k * FACTOR
,这意味着n/k > FACTOR
,意味着每个子映射的条目数超过阈值,所以我们调用rehash
。
运行ant build
来编译源文件。然后运行ant MyHashMapTest
。它应该失败,因为执行rehash
会抛出异常。你的工作是填充它。
填充rehash
的主体,来收集表中的条目,调整表的大小,然后重新放入条目。我提供了两种可能会派上用场的方法:MyBetterMap.makeMaps
和MyLinearMap.getEntries
。每次调用它时,您的解决方案应该使映射数量加倍。
11.2 分析MyHashMap
如果最大子映射中的条目数与n/k
成正比,并且k
与n
成正比,那么多个核心方法就是常数时间的:
public boolean containsKey(Object target){ MyLinearMap <K,V> map = chooseMap(target); return map.containsKey(target); } public V get(Object key){ MyLinearMap <K,V> map = chooseMap(key); return map.get(key); } public V remove(Object key){ MyLinearMap <K,V> map = chooseMap(key); return map.remove(key); }
每个方法都计算键的哈希,这是常数时间,然后在一个子映射上调用一个方法,这个方法是常数时间的。
到现在为止还挺好。但另一个核心方法,put
有点难分析。当我们不需要rehash
时,它是不变的时间,但是当我们这样做时,它是线性的。这样,它与 3.2 节中我们分析的ArrayList.add
类似。
出于同样的原因,如果我们平摊一系列的调用,结果是常数时间。同样,论证基于摊销分析(见 3.2 节)。
假设子映射的初始数量k
为2
,负载因子为1
。现在我们来看看put
一系列的键需要多少工作量。作为基本的“工作单位”,我们将计算对密钥哈希,并将其添加到子映射中的次数。
我们第一次调用put
时,它需要1
个工作单位。第二次也需要1
个单位。第三次我们需要rehash
,所以需要2
个单位重新填充现有的键,和1
个单位来对新键哈希。
译者注:可以单独计算
rehash
中转移元素的数量,然后将元素转移的复杂度和计算哈希的复杂度相加。
现在哈希表的大小是4
,所以下次调用put
时 ,需要1
个工作单位。但是下一次我们必须rehash
,需要4
个单位来rehash
现有的键,和1
个单位来对新键哈希。
图 11.1 展示了规律,对新键哈希的正常工作量在底部展示,额外工作量展示为塔楼。
图 11.1:向哈希表添加元素的工作量展示
如箭头所示,如果我们把塔楼推倒,每个积木都会在下一个塔楼之前填满空间。结果似乎2
个单位的均匀高度,这表明put
的平均工作量约为2
个单位。这意味着put
平均是常数时间。
这个图还显示了,当我们rehash
的时候,为什么加倍子映射数量k
很重要。如果我们只是加上k
而不是加倍,那么这些塔楼会靠的太近,他们会开始堆积。这样就不会是常数时间了。
11.3 权衡
我们已经表明,containsKey
,get
和remove
是常数时间,put
平均为常数时间。我们应该花一点时间来欣赏它有多么出色。无论哈希表有多大,这些操作的性能几乎相同。算是这样吧。
记住,我们的分析基于一个简单的计算模型,其中每个“工作单位”花费相同的时间量。真正的电脑比这更复杂。特别是,当处理足够小,适应高速缓存的数据结构时,它们通常最快;如果结构不适合高速缓存但仍适合内存,则稍慢一点;如果结构不适合在内存中,则非常慢。
这个实现的另一个限制是,如果我们得到了一个值而不是一个键时,那么散列是不会有帮助的:containsValue
是线性的,因为它必须搜索所有的子映射。查找一个值并找到相应的键(或可能的键),没有特别有效的方式。
还有一个限制:MyLinearMap
的一些常数时间的方法变成了线性的。例如:
public void clear() {for (int i=0; i<maps.size(); i++) {maps.get(i).clear();}}
clear
必须清除所有的子映射,子映射的数量与n
成正比,所以它是线性的。幸运的是,这个操作并不常用,所以在大多数应用中,这种权衡是可以接受的。
11.4 分析MyHashMap
在我们继续之前,我们应该检查一下,MyHashMap.put
是否真的是常数时间。
运行ant build
来编译源文件。然后运行ant ProfileMapPut
。它使用一系列问题规模,测量 HashMap.put
(由 Java 提供)的运行时间,并在重对数比例尺上绘制运行时间与问题规模。如果这个操作是常数时间,n
个操作的总时间应该是线性的,所以结果应该是斜率为1
的直线。当我运行这个代码时,估计的斜率接近1
,这与我们的分析一致。你应该得到类似的东西。
修改ProfileMapPut.java
,来测量您的MyHashMap
实现,而不是 Java 的HashMap
。再次运行分析器,查看斜率是否接近1
。您可能需要调整startN
和endMillis
,来找到一系列问题规模,其中运行时间多于几毫秒,但不超过几秒。
当我运行这个代码时,我感到惊讶:斜率大约为1.7
,这表明这个实现不是一直都是常数的。它包含一个“性能错误”。
在阅读下一节之前,您应该跟踪错误,修复错误,并确认现在put
是常数时间,符合预期。
11.5 修复MyHashMap
MyHashMap
的问题是size
,它继承自MyBetterMap
:
public int size() {int total = 0;for (MyLinearMap<K, V> map: maps) {total += map.size();}return total;}
为了累计整个大小,它必须迭代子映射。由于我们增加了子映射的数量k
,随着条目数n
增加,所以k
与n
成正比,所以size
是线性的。
put
也是线性的,因为它使用size
:
public V put(K key, V value) {V oldValue = super.put(key, value);if (size() > maps.size() * FACTOR) {rehash();}return oldValue;}
如果size
是线性的,我们做的一切都浪费了。
幸运的是,有一个简单的解决方案,我们以前看过:我们必须维护实例变量中的条目数,并且每当我们调用一个改变它的方法时更新它。
你会在这本书的仓库中找到我的解决方案MyFixedHashMap.java
。这是类定义的起始:
public class MyFixedHashMap<K, V> extends MyHashMap<K, V> implements Map<K, V> {private int size = 0;public void clear() {super.clear();size = 0;}
我们不修改MyHashMap
,我定义一个扩展它的新类。它添加一个新的实例变量size
,它被初始化为零。
更新clear
很简单; 我们在超类中调用clear
(清除子映射),然后更新size
。
更新remove
和put
有点困难,因为当我们调用超类的该方法,我们不能得知子映射的大小是否改变。这是我的解决方式:
public V remove(Object key) {MyLinearMap<K, V> map = chooseMap(key);size -= map.size();V oldValue = map.remove(key);size += map.size();return oldValue;}
remove
使用chooseMap
找到正确的子映射,然后减去子映射的大小。它会在子映射上调用remove
,根据是否找到了键,它可以改变子映射的大小,也可能不会改变它的大小。但是无论哪种方式,我们将子映射的新大小加到size
,所以最终的size
值是正确的。
重写的put
版本是类似的:
public V put(K key, V value) {MyLinearMap<K, V> map = chooseMap(key);size -= map.size();V oldValue = map.put(key, value);size += map.size();if (size() > maps.size() * FACTOR) {size = 0;rehash();}return oldValue;}
我们在这里也有同样的问题:当我们在子地图上调用put
时,我们不知道是否添加了一个新的条目。所以我们使用相同的解决方案,减去旧的大小,然后加上新的大小。
现在size
方法的实现很简单了:
public int size() {return size;}
并且正好是常数时间。
当我测量这个解决方案时,我发现放入n
个键的总时间正比于n
,也就是说,每个put
是常数时间的,符合预期。
11.6 UML 类图
在本章中使用代码的一个挑战是,我们有几个互相依赖的类。以下是类之间的一些关系:
MyLinearMap
包含一个LinkedList
并实现了Map
。MyBetterMap
包含许多MyLinearMap
对象并实现了Map
。MyHashMap
扩展了MyBetterMap
,所以它也包含MyLinearMap对象
,并实现了Map
。MyFixedHashMap
扩展了MyHashMap
并实现了Map
。
为了有助于跟踪这些关系,软件工程师经常使用 UML 类图。UML 代表统一建模语言(见 http://thinkdast.com/uml )。“类图”是由 UML 定义的几种图形标准之一。
在类图中,每个类由一个框表示,类之间的关系由箭头表示。图 11.2 显示了使用在线工具 yUML(http://yuml.me/)生成的,上一个练习的 UML 类图。
图11.2:本章中的 UML 类图
不同的关系由不同的箭头表示:
- 实心箭头表示 HAS-A 关系。例如,每个
MyBetterMap
实例包含多个MyLinearMap
实例,因此它们通过实线箭头连接。 - 空心和实线箭头表示 IS-A 关系。例如,
MyHashMap
扩展 了MyBetterMap
,因此它们通过 IS-A 箭头连接。 - 空心和虚线箭头表示一个类实现了一个接口;在这个图中,每个类都实现
Map
。
UML 类图提供了一种简洁的方式,来表示大量类集合的信息。在设计阶段中,它们用于交流备选设计,在实施阶段中,用于维护项目的共享思维导图,并在部署过程中记录设计。
数据结构思维 第十一章 `HashMap`相关推荐
- 数据结构思维 第六章 树的遍历
第六章 树的遍历 原文:Chapter 6 Tree traversal 译者:飞龙 协议:CC BY-NC-SA 4.0 自豪地采用谷歌翻译 本章将介绍一个 Web 搜索引擎,我们将在本书其余部分开 ...
- 数据结构思维 第十七章 排序
第十七章 排序 原文:Chapter 17 Sorting 译者:飞龙 协议:CC BY-NC-SA 4.0 自豪地采用谷歌翻译 计算机科学领域过度痴迷于排序算法.根据 CS 学生在这个主题上花费的时 ...
- 数据结构思维 第三章 `ArrayList`
第三章 ArrayList 原文:Chapter 3 ArrayList 译者:飞龙 协议:CC BY-NC-SA 4.0 自豪地采用谷歌翻译 本章一举两得:我展示了上一个练习的解法,并展示了一种使用 ...
- 数据结构思维 第五章 双链表
第五章 双链表 原文:Chapter 5 Doubly-linked list 译者:飞龙 协议:CC BY-NC-SA 4.0 自豪地采用谷歌翻译 本章回顾了上一个练习的结果,并介绍了List接口的 ...
- 数据结构思维 第十三章 二叉搜索树
第十三章 二叉搜索树 原文:Chapter 13 Binary search tree 译者:飞龙 协议:CC BY-NC-SA 4.0 自豪地采用谷歌翻译 本章介绍了上一个练习的解决方案,然后测试树 ...
- 数据结构思维 第七章 到达哲学
第七章 到达哲学 原文:Chapter 7 Getting to Philosophy 译者:飞龙 协议:CC BY-NC-SA 4.0 自豪地采用谷歌翻译 本章的目标是开发一个 Web 爬虫,它测试 ...
- 数据结构思维 第四章 `LinkedList`
第四章 LinkedList 原文:Chapter 4 LinkedList 译者:飞龙 协议:CC BY-NC-SA 4.0 自豪地采用谷歌翻译 这一章展示了上一个练习的解法,并继续讨论算法分析. ...
- 【Java数据结构与算法】第十一章 顺序存储二叉树、线索二叉树和堆
第十一章 顺序存储二叉树.线索化二叉树.大顶堆.小顶堆和堆排序 文章目录 第十一章 顺序存储二叉树.线索化二叉树.大顶堆.小顶堆和堆排序 一.顺序存储二叉树 1.介绍 2.代码实现 二.线索二叉树 1 ...
- 数据结构与算法Python语言实现《Data Structures Algorithms in Python》手写课后答案--第十一章
第十一章 本章叙述了不同平衡树的构造性能问题 习题代码如下(部分代码引用书中源代码,源代码位置目录在第二章答案中介绍) #11.1 #(1,A) # \ # (2,B) # \ # (3,C) # \ ...
最新文章
- JavaScript--正则
- java指定位置写入_java指定路径写、读文件
- 疯了疯了!面试官问一个 TCP 连接可以发多少个 HTTP 请求?
- android gpio操作
- jquery和php怎么链接地址,jQuery操作url地址(附代码)
- NUMA架构的CPU
- 数据库开发——MySQL——约束条件与表关系
- c语言穷举算法 枚举法,c语言枚举法 穷举法 ppt课件
- c语言 正号运算符 作用,C语言中,哪些运算符具有左结合性,哪些具有右结合性,帮忙总结下,...
- mysql 插入数据 自增长_如何在MYSQL插数据 ID自增
- 目标跟踪【更新中...】
- 【代码笔记】Web-JavaScript-JavaScript表单验证
- SpringBoot入门教程(七)整合themeleaf+bootstrap
- 【扫描线】【POJ-1177】Picture【周长并】
- 心力哲学——艰难多变环境下快乐、自由与生存力的源泉(二)
- 弹窗动画PopupWindow
- Linux下用脚本命令打开文档、表格、PPT
- Docker curriculum (2): 构建自己的镜像
- springboot热启动与热部署
- 英国化学实验室的管理模式
热门文章
- (18)FPGA面试技能提升篇(CACHE、MMU、DMA)
- linux创建虚拟账号,linux vsftpd 创建虚拟用户 过程记录
- mysql c测试程序_Linux平台下从零开始写一个C语言访问MySQL的测试程序
- mysql report参数_mysqlreport 使用说明
- 【LeetCode】【HOT】4. 寻找两个正序数组的中位数(二分查找)
- leetcode 88 Merge Sorted Array
- Django - Xadmin (四) Filter
- 企业级Ngnix基于域名的配置_server
- spring cloud 入门系列六:使用Zuul 实现API网关服务
- 浏览器对同一IP的最大并发请求数记录