在1000w数据中取出前10个出现次数最多的

这个问题的一般叙述即在大数据集中取出前K个出现次数最多的。
这个是数据频次计算的问题。因为是大数据集,所以单机是处理不了的,需要分布式处理。处理的步骤:

  1. 数据分组,比如分m组;
  2. 对于单个数据组统计每个数据出现的频次,使用数据结构比如HashMap,TreeMap存储每个数据出现的次数;
  3. 从每个组取出k*m个数据,构成一个新的数据集,然后重复步骤2;
  4. 根据步骤3计算结果集取前k个即为最终结果。

现在不加证明的将上述步骤简单说明一下:

步骤1,数据分组,原因是数据量过大单机无法承载,所以需要分组;
步骤2,计算每个数据的出现频次,使用TreeMap 结果可以自然进行排序;
步骤3,取出每组的个数是k*m,而不是k。原因是当数据频次分布比较均匀,出现数据错漏的情况。
步骤4,组成一个新的集合,然后重复步骤2,就得到了相应的结果,取出前k个即为结果集。

在1000w数据中取出前10个最大的数据

这个问题的一般叙述即在大数据集中取出前K个最大的数据。
这个是数据排序的问题。对于排序问题解决思路比较简单,处理思路:

  1. 将数据分组,比如m组;
  2. 建一个长度为K的数组,读取相应数据放在数组的相应的位置上,每次数据的存储都要进行一次重排序;
  3. 对于每一个数组分组,使用步骤2重复读取;
  4. 最终数据中存储的数据即为结果集;

大数据下数据频次计算问题与排序问题相关推荐

  1. 大数据环境下数据科学的知识体系

    数据科学概论 随着互联网的飞速发展,大数据(Big Data)的概念和技术成为当下流行的领域. 数据科学(Data Science)这一体系也随着大数据的崛起成为讨论热点.在各大招聘网站上," ...

  2. LTE CA下的频点计算

    this article is transfer to https://ziyubiti.github.io

  3. 【20保研】南京邮电大学关于举办2019 年江苏省研究生“大数据时代下的新型网络计算” 暑期学校的通知...

    点击文末的阅读原文或者公众号界面左下角的保研夏令营或者公众号回复"夏令营"是计算机/软件等专业的所有保研夏令营信息集合,会一直更新的. 主办单位:江苏省工学2类研究生教育指导委员会 ...

  4. 大数据下的BI新特性

    大数据下的BI新特性 大数据BI的新需求包括大量化(多个大数据集并行分析).多样化(结构化.半结构化.非结构化).快速化(Velocity)和价值(易用性).而计算分层(流计算.块计算.全局计算).快 ...

  5. 大数据下机械智能诊断的机遇与挑战,阅读文献系列(一)

    阅读文献系列一 论文题目:大数据下机械智能诊断的机遇与挑战 1.大数据时代下的故障诊断的挑战: 2.机械大数据的特性: 3.应该怎么做: 4.现有工作: 5.故障诊断三方面研究: 5.1 信号获取 5 ...

  6. 大数据下服装品牌知识挖掘浅析

    大数据时代产生了海量的数据,但是数据类型多元异构.网页发布不规范等因素导致数据价值密度低,信息造价昂贵.大数据分析和数据挖掘是基于统计分析学的从数据中获取知识的一种研究方法,在互联网.金融.医疗等多个 ...

  7. 易观智库:大数据下的用户分析及用户画像(18页PPT附下载)

    大数据下,用户分析的核心是什么? --解决实际问题 确定用户分析目的,具体是为了降低成本?增加收入?优化用户体验?提升营销效果?用户针对性管理? 确定目的后开始选择合适的数据,然后搭建模型,最后得出结 ...

  8. 图灵指数——学术大数据下的跨领域跨年代学者影响力评估

    图灵指数--学术大数据下的跨领域跨年代学者影响力评估 姚宇航, 欧俊杰, 李洋, 傅洛伊, 王新兵, 陈贵海 上海交通大学电子信息与电气工程学院,上海 200240 摘要:随着学术界规模的扩大,面对领 ...

  9. 云计算&大数据 “下一幕”智能变革之力

    2019独角兽企业重金招聘Python工程师标准>>> 2016年的互联网科技领域,云计算.大数据.人工智能成为最热词汇.阿里云"为了无法估算的价值"将中国的计算 ...

最新文章

  1. Java架构-(十) 整合spring cloud云架构 - SSO单点登录之OAuth2.0登录认证(1)
  2. Makefile经典教程
  3. 【排序算法】— 手写堆排序
  4. linux基础-1.1USB设备(USB1.0以上)连接使用
  5. 【JZOJ3216】【SDOI2013】淘金
  6. SAP Spartacus 的基于outlet 的页面扩展
  7. 《C++标准程序库》学习笔记1--第二章第三章
  8. H5本地储存Web Storage
  9. Java多线程编程总结 链接
  10. 无需软件实现QQ空间秒赞以及赞空间全部说说
  11. 风险回避、减轻、转移、接受,汇率风险
  12. SQL 2008下载地址以及全新安装详细过程
  13. 在用origin画图时,图表左上角会出现大写字母C,去除方法:
  14. 停车场寻车是怎么实现的?车库寻车有什么好办法?
  15. 网络编程:(三)网络编程编程接口
  16. python爬取豆瓣电影信息_Python爬虫入门 | 爬取豆瓣电影信息
  17. python自动化办公入门故事教案_Python自动化办公知识点整理汇总
  18. 安装文件MSI文件和EXE文件有什么区别?
  19. Python基础:按位异或 ^ ,按位或 | ,按位与
  20. HTML实时获取当前时间

热门文章

  1. 例题6-13 古代象形符号 UVa1103
  2. 应用关键词的搜索量和难度
  3. 轻松玩转新编日语3 zz江沪
  4. 如何升级Jenkins版本
  5. GPRS模块SIM300硬件分析
  6. 实时 12306 车票查询
  7. 西北工业大学计算机二级考点,2020年3月全国计算机等级考试报名通知
  8. 2017便利蜂前端一面
  9. IOS开发之判断iPhone连接的网络(WiFi,2G,3G,LTE,4G)是IPV4还是IPV6网络
  10. 实验一 网络对抗技术