海量数据相关面试问题（二）：海量数据热点数据/出现频度/TOP-K问题（TOP-K 分而治之/Hash映射 / Hashmap统计频度 / 堆排序决出排名）

文章目录

前引
海量数据相关面试问题（二）：海量数据热点数据/出现频度/TOP-K问题（TOP-K Hash映射分而治之 / Hashmap统计频度 / 堆排序决出排名）
- 1、通用数据频度/热点数据解决办法
- - 1、分而治之/Hash映射
  - 2、Hashmap 统计频度 / 最小堆进行数据排名
- 2、海量数据数据频度相关面试题
- - 1、(360公司 2012) 100万条记录的文本文件，取出重复数最多的前10条。
  - 2、(360公司 2012) 100亿条记录的文本文件，取出重复数最多的前10条。
  - 3、(腾讯公司 2011) 服务器内存1G，有一个2G的文件，里面每行存着一个QQ号（5-10位数），怎么最快找出出现过最多次的QQ号。
  - 4、(腾讯公司 2015 牛客网) 搜索引擎的日志要记录所有查询串,有一千万条查询,不重复的不超过三百万，要统计最热门的10条查询串，内存<1G，字符串长 0-255。
- 3、浅浅总结一下

前引

刚刚大概在15分钟前才发了我们的海量数据面试问题（一）数据排序问题
然后主要讲了讲我们的非常常用的好帮手Bitmap还有面试常考的多路归并算法并且在上一篇我们也对其有我们的代码实现

在上一篇的基础上我们其实已经开始对海量数据的处理已经有点感觉了
那么这一篇的学习后我相信我们将对（如何找到频度最靠前的数据/重叠数最多的数据/出现最多次的数据）这类相同类型换汤不换药的问题就明白解决思路了

那我们下面还是走着吧

海量数据相关面试问题（二）：海量数据热点数据/出现频度/TOP-K问题（TOP-K Hash映射分而治之 / Hashmap统计频度 / 堆排序决出排名）

1、通用数据频度/热点数据解决办法

1、分而治之/Hash映射

至于分而治之我相信我们也在熟悉不过了
尤其是在归并中我们是大量的采用这个思想

对于排序我们可以不用Hash映射我们直接以物理内存存储形式将大文件分成小文件即可

但是对于一些有频度要求或者要求查看数据重复程度的 Hash映射则是必要的
什么是Hash映射作用是什么
对于海量数据采用Hash映射有效的将数据均匀分散在各个数据块中而且映射后相同的数据是不会被放在不同的文件块中因为以相同的key只会被分在相同的桶中而这也是数据频度分析的大前提条件

如果相同的数据被分在了不同的文件中那么怎么一次统计在不同文件中的相同数据中的频度呢

分而治之和 Hash映射也多用于内存受限数据不能一次性在内存存储完的场景
而且对于Hash映射也可以将相同的数据以及类似的数据合理的分布在一块区域方便我们进行后面的操作

2、Hashmap 统计频度 / 最小堆进行数据排名

对于统计频度我们一般采用哈希表
如果面试算法题做的多的朋友我相信经常会做到有关于频度的问题而那个时候一般存储频度的我们也都是用的Hashmap来存储的

对于小文件块我们就有足够的内存来存储这些数据了
我们就可以完完全全遍历一遍所有的数据出现的数据 value则加上1 然后在O(n)的时间内我们就把当前数据块的所有频度给统计了一遍了

当然例如我们要求前10频度的数据我们就在每个数据块做完统计后再把所有的数据频度丢入最小堆（这是后面要讲的）然后取出来当前数据块前10个频度最高的数据放入所有数据块都共用的最小堆

举个例子有10亿数据要求求出现次数最多的5个数据
我们每个就简单举个例子就取100个数据块每个数据块存1000万的数据即可然后开始挨个挨个数据块遍历 1000万数据在遍历的时候就放入Hashmap统计频度统计完后再把这1000万个数据的频度统计放入最小堆此时内存最多就需要2000万的数据就足够完成工作了（其实不止 Hashmap一般内存占用至少是所需内存的两倍-三倍左右）

然后我们再取出来最大的五个频度的数据放入公有最小堆那么等这10个数据块完成相同的工作后我们的公用最小堆里面就有50个数据此时再取出来5个就能完成任务了

2、海量数据数据频度相关面试题

下面就放一下真题吧真题也是我从其他博客里面找到的
为了表达敬意和感谢还是贴一下链接吧
CSDN : 笔试和面试中的海量数据问题博主：Beyond_2016

这篇的结束就以这四道面试题来结束吧
要求肯定是 1、讲出实现思路 2、时间复杂度的求解

那我们也就边做边思考结合上面的问题
也就把这种类型的面试题给速通了

1、(360公司 2012) 100万条记录的文本文件，取出重复数最多的前10条。

首先我们可以看看 100万条的数据其实也不算多如果我们的内存可以装的下的话时间条件比较严苛的话那当然我们不妨就直接放入内存计算

unordered_map来统计频度 O(n)即可统计完成
priority_queue(heap)来做排序 O(n)建堆 10 * O(lgn)完成取值内存中占有200万条数据

这道题分析完了我们看看下面的逐步加深

2、(360公司 2012) 100亿条记录的文本文件，取出重复数最多的前10条。

显然这道题里面 100亿的数据怎么找得到内存存放这么大的数据
我们此时就可以按照上面的思路来解决问题了

1、分而治之采用Hash映射我们不妨采用mod取余来决定文件存放如果mod取10000 则可以使100亿条数据变为100万 则又回到了上面的解答了
相同的数据和数据差距不大的文本文件全被分到了相同的文件块中

2、Hashmap统计数据出现个数
3、最小堆来决出热点数据

套路和上面就是变成一样的了这部分就省略了

3、(腾讯公司 2011) 服务器内存1G，有一个2G的文件，里面每行存着一个QQ号（5-10位数），怎么最快找出出现过最多次的QQ号。

先看看题目内存1G 2G文件
QQ号是5-10位数 那我们可以把其当作数据

这个题目刚开始我想了想 bitmap 因为有数字类型的但发现显然不行因为是求频度
而且这道题要求我们最快找出那说明我们要充分利用内存

那我们不妨把每个文件分成300M 因为unordered_map一般占用内存至少是两倍多再加上我们的最小堆需要存储这些文件
2G文件可以分成6份每份350MB左右然后采用hash映射映射到8个数据块中然后又回到了我们熟悉的节奏中

1、Hashmap统计频度
2、最小堆决出最多频度/最热数据

4、(腾讯公司 2015 牛客网) 搜索引擎的日志要记录所有查询串,有一千万条查询,不重复的不超过三百万，要统计最热门的10条查询串，内存<1G，字符串长 0-255。

最热门数据其实还是老套路
字符串长0-255 也就是说明不定长那么更需要Hash映射了
Hash映射把不定长的Key 通过映射函数而使数据归为相同长度的桶中

1、Hash映射映射到几分文件可以思考一下但可以大概在300MB左右 mod值取值
2、unordered_map统计频度
3、最小堆决出最热数据结束

3、浅浅总结一下

分而治之/Hash映射
Hashmap统计频度
最小堆来决出最多出现/最热数据
这已经成为频度相关问题的三大利器了

套路也就是这个套路但我们还是要按照题目的不同自己也要灵活的选择恰当的数据结构去思考怎么去存储

还是那句话对这些东西理解越深刻在面试场景下才有可能临危不乱冷静思考才能答出问题来
上一篇中我已经以源码的形式来写出来了所以我相信我在之后这类问题中自己肯定是能够应付的

后面还有一个对于怎么挑选出数据重复的类型
现在也10:30了我也打算休息了明天上午再来看了

那这篇就写到这里下篇再见啦 ε=ε=ε=(~￣▽￣)~