Hive中的Distribute by 搭配sort by
今天不学习,明天不学习,后天就习惯不学习了
小谈:
上次讲了sort by和order by的区别,order by 进行全局排序,此时的reduce只有1个。
sort by分情况。
情况一:一个reduce。相当于order by 会进行全局排序,因为全局就只有那一个reduce
情况二:多个reduce。sort by 会在多个reduce里面。对每一个reduce进行内部的排序。就是每个reduce里面是排序的,但是不保证全局有序。
正菜:
含有SORT BY的Distribute By
正常情况下,sort by经常和distribute by配合。
默认情况下,mapreduce计算框架会依据map输入的键计算相应的哈希值,然后按照哈希值将键值均匀的分发到各个reduce中。这也就意味着不同的reduce输出会有一定的重复值。
下面为了避免会有重复值,我们通过distribute by配合sort by进行搭配。
select s.ymd,s.symbol,s.price
from stocks s
distribute by s.symbol
sort by s.symbol ,s.ymd
可以看到,第二列 就是我们上面的 s.symbol这个字段的值都是一样的,
对s.symbol这个字段进行哈希操作,将哈希值相同的返回到同一个reduce里面,返回到同一个reduce里面后,在reduce里面进行排序。
总结:
在我们平常学习中,在Hive里面经常用到的就是group by + sort by 和 distribute by + order by 。
现在group by + order by 和distribute by + sort by 都已经讲了。
所以现在就请大家开始新一轮的学习吧。
从明天起,早上不再卧床,会更加用心的更新博文了。
Hive中的Distribute by 搭配sort by相关推荐
- hive中的distribute by、sort by、cluster by
1.背景 hive中有一个store表,字段分别是"商店所属人标识"(merid),"商户余额(money)","商店名称(name)".求 ...
- hive排序:distribute by 、sort by 、cluster by 、order by 区别
hive排序:distribute by .sort by .cluster by .order by 区别 1). order by 只有一个reduce负责对所有的数据进行排序,若大数据量,则需要 ...
- hive中的distribute by
1.背景 hive中有一个store表,字段分别是"商店所属人标识"(merid),"商户余额(money)","商店名称(name)".求 ...
- hive中的order by、sort by、distribute by、cluster by排序
hive中的排序 说明:hive中有四种全局排序:order by.内部排序:sort by.分区排序:distribute by.组合排序:cluster by. order by(全局排序) 说明 ...
- Hive中的distribute by、order by、sort by解析
distribute by 是控制map端在reduce上是如何区分的,distribute by会把相同的Keyf放到同一个reduce中.可以结合sort by 使用,distribute by必 ...
- Hive中的排序:order by/sort by/cluster by
Hive中关于排序的几种方法,有必要深入理解其原理. Order by 全局排序 1)Order By:全局排序,只有一个 Reducer,即使我们在设置set reduceer的数量为多个,但是在执 ...
- HIVE中,cluster by有什么意义
文章目录 1. cluster by 是什么? 2. cluster by有什么意义? 后记 1. cluster by 是什么? 如果想彻底了解:HIVE中,order by.sort by. di ...
- hive 中排序order by,sort by,distribute by使用
前提:hive 中使用的排序有oder by, sort by,distribute By,cluster By 具体使用如下 测试数据: 0: jdbc:hive2://hadoop-03:1000 ...
- hive中order by,sort by, distribute by, cluster by作用以及用法
1. order by Hive中的order by跟传统的sql语言中的order by作用是一样的,会对查询的结果做一次全局排序,所以说,只有hive的sql中制定了order by所有的数据都会 ...
最新文章
- 兼容ie8_兼容IE8的一些笔记
- 内存颗粒位宽和容量_SDRAM的逻辑Bank与芯片容量表示方法
- 【HDU - 5649】DZY Loves Sorting(线段树,区间更新区间查询,思维,01缩数变换,线段树分割)
- QT之深入理解QThread
- G1垃圾收集器深度剖析
- MongoDB删除文档(非常详细~)
- 基于NumPy手写神经网络
- Django菜鸟教程学习记录(一)
- 远程桌面视频耗远程计算机流量吗,性能优化远程桌面会话主机
- 计算机安全模式无法启动,电脑无法启动,电脑安全模式进不去解决方法大全?...
- java防止文件上传_文件上传漏洞:getshell的最好方式,我们如何防御?
- 输入框内只能输入数字,输入其他内容不显示
- 同源跨窗口通信:网易云音乐不同标签页打开同一页面,暂停原先标签页音频播放
- java如何设置jlabel位置_Java Swing – JLabel位置
- 蓝牙5.2发布对TWS耳机有什么影响?耳机工厂告诉你!
- 美国招聘巨头完成收购中华英才网
- 饥荒熔炉不显示服务器,饥荒熔炉模式怎么玩_饥荒熔炉模式怎么进_52pk单机游戏...
- 2023最新小熊的日记图文列表布局小程序模板源码
- 百味勺子——环境搭建篇
- dz php7,dz论坛对于php7以上版本门户无法开启问题
热门文章
- CodeForces - 1000D:Yet Another Problem On a Subsequence (DP+组合数)
- unigui发布_uniGUI试用笔记(十一) ---UNIDBGRID
- 安装mysql后服务里面没有_安装mysql后没有看到服务怎么办?
- 今天谁也别想阻止我好好学习!「CDR 6·18特惠倒计时2天!」
- 最全面性能测试方案模板
- 【2021/推荐/社交网络】Socially-Aware Self-Supervised Tri-Training for Recommendation
- python语句中print(0xa+0xb)的输出结果是_【单选题】Python语句print(0xA+0xB)的输出结果是( )...
- 【收藏分享】2022年PHP中高级面试题(三)
- java px pt转化_字体的大小(pt)和像素(px)如何转换?
- 调音台docker教程_威联通Docker教程 篇二:三分钟安装精美的音乐播放器 MusicPlayer!Container Station系列教程!...