今天不学习,明天不学习,后天就习惯不学习了

小谈:

上次讲了sort by和order by的区别,order by 进行全局排序,此时的reduce只有1个。

sort by分情况。

 情况一:一个reduce。相当于order by 会进行全局排序,因为全局就只有那一个reduce

                情况二:多个reduce。sort by 会在多个reduce里面。对每一个reduce进行内部的排序。就是每个reduce里面是排序的,但是不保证全局有序。

正菜:

含有SORT BY的Distribute By

正常情况下,sort by经常和distribute by配合。

 默认情况下,mapreduce计算框架会依据map输入的键计算相应的哈希值,然后按照哈希值将键值均匀的分发到各个reduce中。这也就意味着不同的reduce输出会有一定的重复值。

下面为了避免会有重复值,我们通过distribute by配合sort by进行搭配。

select s.ymd,s.symbol,s.price
from stocks s
distribute by s.symbol
sort by s.symbol ,s.ymd

可以看到,第二列 就是我们上面的 s.symbol这个字段的值都是一样的,

对s.symbol这个字段进行哈希操作,将哈希值相同的返回到同一个reduce里面,返回到同一个reduce里面后,在reduce里面进行排序。

总结:

在我们平常学习中,在Hive里面经常用到的就是group by + sort by 和 distribute by + order by 。

现在group by + order by 和distribute by + sort by 都已经讲了。

所以现在就请大家开始新一轮的学习吧。

从明天起,早上不再卧床,会更加用心的更新博文了。

Hive中的Distribute by 搭配sort by相关推荐

  1. hive中的distribute by、sort by、cluster by

    1.背景 hive中有一个store表,字段分别是"商店所属人标识"(merid),"商户余额(money)","商店名称(name)".求 ...

  2. hive排序:distribute by 、sort by 、cluster by 、order by 区别

    hive排序:distribute by .sort by .cluster by .order by 区别 1). order by 只有一个reduce负责对所有的数据进行排序,若大数据量,则需要 ...

  3. hive中的distribute by

    1.背景 hive中有一个store表,字段分别是"商店所属人标识"(merid),"商户余额(money)","商店名称(name)".求 ...

  4. hive中的order by、sort by、distribute by、cluster by排序

    hive中的排序 说明:hive中有四种全局排序:order by.内部排序:sort by.分区排序:distribute by.组合排序:cluster by. order by(全局排序) 说明 ...

  5. Hive中的distribute by、order by、sort by解析

    distribute by 是控制map端在reduce上是如何区分的,distribute by会把相同的Keyf放到同一个reduce中.可以结合sort by 使用,distribute by必 ...

  6. Hive中的排序:order by/sort by/cluster by

    Hive中关于排序的几种方法,有必要深入理解其原理. Order by 全局排序 1)Order By:全局排序,只有一个 Reducer,即使我们在设置set reduceer的数量为多个,但是在执 ...

  7. HIVE中,cluster by有什么意义

    文章目录 1. cluster by 是什么? 2. cluster by有什么意义? 后记 1. cluster by 是什么? 如果想彻底了解:HIVE中,order by.sort by. di ...

  8. hive 中排序order by,sort by,distribute by使用

    前提:hive 中使用的排序有oder by, sort by,distribute By,cluster By 具体使用如下 测试数据: 0: jdbc:hive2://hadoop-03:1000 ...

  9. hive中order by,sort by, distribute by, cluster by作用以及用法

    1. order by Hive中的order by跟传统的sql语言中的order by作用是一样的,会对查询的结果做一次全局排序,所以说,只有hive的sql中制定了order by所有的数据都会 ...

最新文章

  1. 兼容ie8_兼容IE8的一些笔记
  2. 内存颗粒位宽和容量_SDRAM的逻辑Bank与芯片容量表示方法
  3. 【HDU - 5649】DZY Loves Sorting(线段树,区间更新区间查询,思维,01缩数变换,线段树分割)
  4. QT之深入理解QThread
  5. G1垃圾收集器深度剖析
  6. MongoDB删除文档(非常详细~)
  7. 基于NumPy手写神经网络
  8. Django菜鸟教程学习记录(一)
  9. 远程桌面视频耗远程计算机流量吗,性能优化远程桌面会话主机
  10. 计算机安全模式无法启动,电脑无法启动,电脑安全模式进不去解决方法大全?...
  11. java防止文件上传_文件上传漏洞:getshell的最好方式,我们如何防御?
  12. 输入框内只能输入数字,输入其他内容不显示
  13. 同源跨窗口通信:网易云音乐不同标签页打开同一页面,暂停原先标签页音频播放
  14. java如何设置jlabel位置_Java Swing – JLabel位置
  15. 蓝牙5.2发布对TWS耳机有什么影响?耳机工厂告诉你!
  16. 美国招聘巨头完成收购中华英才网
  17. 饥荒熔炉不显示服务器,饥荒熔炉模式怎么玩_饥荒熔炉模式怎么进_52pk单机游戏...
  18. 2023最新小熊的日记图文列表布局小程序模板源码
  19. 百味勺子——环境搭建篇
  20. dz php7,dz论坛对于php7以上版本门户无法开启问题

热门文章

  1. CodeForces - 1000D:Yet Another Problem On a Subsequence (DP+组合数)
  2. unigui发布_uniGUI试用笔记(十一) ---UNIDBGRID
  3. 安装mysql后服务里面没有_安装mysql后没有看到服务怎么办?
  4. 今天谁也别想阻止我好好学习!「CDR 6·18特惠倒计时2天!」
  5. 最全面性能测试方案模板
  6. 【2021/推荐/社交网络】Socially-Aware Self-Supervised Tri-Training for Recommendation
  7. python语句中print(0xa+0xb)的输出结果是_【单选题】Python语句print(0xA+0xB)的输出结果是( )...
  8. 【收藏分享】2022年PHP中高级面试题(三)
  9. java px pt转化_字体的大小(pt)和像素(px)如何转换?
  10. 调音台docker教程_威联通Docker教程 篇二:三分钟安装精美的音乐播放器 MusicPlayer!Container Station系列教程!...