我们通过一个案例来说明,比如我们要将135开头的手机号,放到一个文件中,将136开头的手机号,

放到另一个文件中..这个需求怎么来做.

1.首先我们来看一下hadoop的默认的分区是怎么做的,可以看到,默认进行分区的,一个类,叫做HashPartitioner,这个其实就是

可以看到,根据了来源数据的key,进行分区,可以看到这里,key.hashCode & Integer.MAX_VALUE 这个的作用是什么?

这个的作用其实很简单,可以看到用到的是与,而且与上,int的最大值,其实就是,不允许数据超过int的最大值而已,可以看到,int的最大值,

右边除了符号位全是1,那么与上这个数以后,如果超过了int最大值,以后,数据的key的高位,就会变成0了,也就是,不管,数据传入过来的

key是啥,范围都会被锁定在0到int最大值的范围,然后,拿着这个值,再去 跟numReduceTasks这个值,取余,的作用就很明显了,其实

大数据之-Hadoop3.x_MapReduce_HashPartitioner分区---大数据之hadoop3.x工作笔记0111相关推荐

  1. 使用vue的生命周期函数_异步_同步获取字典数据---基于Vue的uniapp手机端_前端UI_uview工作笔记003

    export default {         data() {}, async created() { //1.可以看到这里,需要用异步的方式请求.画面启动完毕以后,就去请求            ...

  2. 大数据_MapperReduce_Hbase的优化_存数据_自动计算分区号 自动计算分区键---Hbase工作笔记0027

    技术交流QQ群[JAVA,C++,Python,.NET,BigData,AI]:170933152 然后我们继续看这里,上一节我们已经说了,我们怎么样在创建数据表的时候 给这个数据表添加分区键了对吧 ...

  3. 关系型数据库大数据性能优化解决方案之:分表(当前表历史表)、表分区、数据清理原则

    原因和目的 由于交易量大或者日积月累造成数据库的数据量越来越大.会导致系统性能大幅下降,所以要对部分业务的表数据作备份和清理 减少数据量,来提升请求响应的速度,提升用户体验 数据是否需要清理的阀值判断 ...

  4. 2021年大学生大数据技能竞赛上海分区HIVE篇解析

    文章目录 项目需求 step1:创建ods层数据表 step2:创建dwd层数据表 step3:创建dwm数据处理分析 step4:创建dws层 step5:创建app层 其他参考设置: 题目 前置准 ...

  5. 大数据之-Hadoop3.x_MapReduce_分区数与reduce个数总结---大数据之hadoop3.x工作笔记0113

    1.然后我们再来看,上一节我们执行的时候设置的job.setNumReduceTasks(5),我们分成了5个分区,那么如果我们设置成4,可以看到上面 会怎么样?  2.设置以后执行可以看到,报错了对 ...

  6. 大数据之-Hadoop3.x_MapReduce_shuffle机制---大数据之hadoop3.x工作笔记0110

    1.这个shuffle机制,是在map方法和reduce方法之间的一种机制 shuffle是在map方法之后,reduce方法之前,用来处理数据的过程. 可以看到我们再来回想一下,map方法执行以后, ...

  7. 大数据之-Hadoop3.x_MapReduce_ReduceJoin案例TableBean---大数据之hadoop3.x工作笔记0129

    可以看到我们去创建了一个package,是reducejoin,然后我们创建了一个类TableBean 这个Bean实现了Writable这个接口,表示,可写的也就是实现序列化 然后write 就是序 ...

  8. 大数据之-Hadoop3.x_MapReduce_ReduceJoin案例Reducer_案例完成---大数据之hadoop3.x工作笔记0131

    然后我们再去写reducer 首先输入的参数就是map输出的参数对吧是,Text,TableBean Text是key也就是商品的pid,然后TableBean是数据也就是我们封装的数据对象 然后re ...

  9. 听过TB、PB级大数据,ZB级的大数据探索与应用实践是怎么样的?【附PPT】

    据报告显示到2025年,全球将产生180ZB的数据.这些海量的数据正是企业进行数字化转型的核心生产因素,然而真正被有效存储.使用和分析的数据不到百分之十.如何从ZB级的数据中寻找分析有价值的信息并回馈 ...

最新文章

  1. js dom 操作实例图解
  2. java 队列已满_java – ThreadPoolExecutor当队列已满时阻塞?
  3. MongoDB数据库设计中6条重要的经验法则
  4. python如何计算个人gpa_使用While循环(Python)计算GPA
  5. stmmac描述符的结构和初始化
  6. 论文笔记(SocialGCN: An Efficient Graph Convolutional Network based Model for Social Recommendation)
  7. 11有没有压力感应_特殊感应器赋予机械手多维触感
  8. HTML+CSS+JS实现 ❤️发光的线条爱心形状动画特效❤️
  9. 拓扑排序——最大食物链计数(洛谷 P4017)
  10. python开启新代码块_20课零基础快速学python完成简单邮件完整邮件代码块
  11. 图解FFMPEG打开媒体的函数avformat_open_input
  12. 抖音、快手无水印视频下载【现已支持所有平台】
  13. 单片机音频谱曲软件_单片机音乐代码转换工具(Music Encode)
  14. 冲印常见问题杂锦(网上摘录)
  15. 微信小程序实现授权登录及退出
  16. 长连接和短连接的定义区别,以及应用场景
  17. java aspect demo_Spring AOP + Aspect 实现切面编程
  18. windows配置指定网段流量走虚拟专用网络
  19. 计算机基础 华师在线,华师在线计算机基础试题答案.doc
  20. 推荐一些学习类APP

热门文章

  1. mysql查询当前用户下的表空间_oracle 如何查看当前用户的表空间名称
  2. mysql 取模分区_MySQL分区
  3. 广义表的长度和深度怎么算_最新详细个人所得税税率表!快看最新个人所得税怎么算!...
  4. linux内存管理(十)-页表管理
  5. linux下安装opencv4.4.0
  6. Chorme看视频卡,蓝屏
  7. 自由在博客里插入广告,有钱你不赚吗???
  8. QT 多线程程序设计 -互斥
  9. Ankhsvn 改名出错
  10. SGU 325 Palindrome(贪心)