大数据之-Hadoop3.x_MapReduce_HashPartitioner分区---大数据之hadoop3.x工作笔记0111
我们通过一个案例来说明,比如我们要将135开头的手机号,放到一个文件中,将136开头的手机号,
放到另一个文件中..这个需求怎么来做.
1.首先我们来看一下hadoop的默认的分区是怎么做的,可以看到,默认进行分区的,一个类,叫做HashPartitioner,这个其实就是
可以看到,根据了来源数据的key,进行分区,可以看到这里,key.hashCode & Integer.MAX_VALUE 这个的作用是什么?
这个的作用其实很简单,可以看到用到的是与,而且与上,int的最大值,其实就是,不允许数据超过int的最大值而已,可以看到,int的最大值,
右边除了符号位全是1,那么与上这个数以后,如果超过了int最大值,以后,数据的key的高位,就会变成0了,也就是,不管,数据传入过来的
key是啥,范围都会被锁定在0到int最大值的范围,然后,拿着这个值,再去 跟numReduceTasks这个值,取余,的作用就很明显了,其实
大数据之-Hadoop3.x_MapReduce_HashPartitioner分区---大数据之hadoop3.x工作笔记0111相关推荐
- 使用vue的生命周期函数_异步_同步获取字典数据---基于Vue的uniapp手机端_前端UI_uview工作笔记003
export default { data() {}, async created() { //1.可以看到这里,需要用异步的方式请求.画面启动完毕以后,就去请求 ...
- 大数据_MapperReduce_Hbase的优化_存数据_自动计算分区号 自动计算分区键---Hbase工作笔记0027
技术交流QQ群[JAVA,C++,Python,.NET,BigData,AI]:170933152 然后我们继续看这里,上一节我们已经说了,我们怎么样在创建数据表的时候 给这个数据表添加分区键了对吧 ...
- 关系型数据库大数据性能优化解决方案之:分表(当前表历史表)、表分区、数据清理原则
原因和目的 由于交易量大或者日积月累造成数据库的数据量越来越大.会导致系统性能大幅下降,所以要对部分业务的表数据作备份和清理 减少数据量,来提升请求响应的速度,提升用户体验 数据是否需要清理的阀值判断 ...
- 2021年大学生大数据技能竞赛上海分区HIVE篇解析
文章目录 项目需求 step1:创建ods层数据表 step2:创建dwd层数据表 step3:创建dwm数据处理分析 step4:创建dws层 step5:创建app层 其他参考设置: 题目 前置准 ...
- 大数据之-Hadoop3.x_MapReduce_分区数与reduce个数总结---大数据之hadoop3.x工作笔记0113
1.然后我们再来看,上一节我们执行的时候设置的job.setNumReduceTasks(5),我们分成了5个分区,那么如果我们设置成4,可以看到上面 会怎么样? 2.设置以后执行可以看到,报错了对 ...
- 大数据之-Hadoop3.x_MapReduce_shuffle机制---大数据之hadoop3.x工作笔记0110
1.这个shuffle机制,是在map方法和reduce方法之间的一种机制 shuffle是在map方法之后,reduce方法之前,用来处理数据的过程. 可以看到我们再来回想一下,map方法执行以后, ...
- 大数据之-Hadoop3.x_MapReduce_ReduceJoin案例TableBean---大数据之hadoop3.x工作笔记0129
可以看到我们去创建了一个package,是reducejoin,然后我们创建了一个类TableBean 这个Bean实现了Writable这个接口,表示,可写的也就是实现序列化 然后write 就是序 ...
- 大数据之-Hadoop3.x_MapReduce_ReduceJoin案例Reducer_案例完成---大数据之hadoop3.x工作笔记0131
然后我们再去写reducer 首先输入的参数就是map输出的参数对吧是,Text,TableBean Text是key也就是商品的pid,然后TableBean是数据也就是我们封装的数据对象 然后re ...
- 听过TB、PB级大数据,ZB级的大数据探索与应用实践是怎么样的?【附PPT】
据报告显示到2025年,全球将产生180ZB的数据.这些海量的数据正是企业进行数字化转型的核心生产因素,然而真正被有效存储.使用和分析的数据不到百分之十.如何从ZB级的数据中寻找分析有价值的信息并回馈 ...
最新文章
- js dom 操作实例图解
- java 队列已满_java – ThreadPoolExecutor当队列已满时阻塞?
- MongoDB数据库设计中6条重要的经验法则
- python如何计算个人gpa_使用While循环(Python)计算GPA
- stmmac描述符的结构和初始化
- 论文笔记(SocialGCN: An Efficient Graph Convolutional Network based Model for Social Recommendation)
- 11有没有压力感应_特殊感应器赋予机械手多维触感
- HTML+CSS+JS实现 ❤️发光的线条爱心形状动画特效❤️
- 拓扑排序——最大食物链计数(洛谷 P4017)
- python开启新代码块_20课零基础快速学python完成简单邮件完整邮件代码块
- 图解FFMPEG打开媒体的函数avformat_open_input
- 抖音、快手无水印视频下载【现已支持所有平台】
- 单片机音频谱曲软件_单片机音乐代码转换工具(Music Encode)
- 冲印常见问题杂锦(网上摘录)
- 微信小程序实现授权登录及退出
- 长连接和短连接的定义区别,以及应用场景
- java aspect demo_Spring AOP + Aspect 实现切面编程
- windows配置指定网段流量走虚拟专用网络
- 计算机基础 华师在线,华师在线计算机基础试题答案.doc
- 推荐一些学习类APP