hive中的排序

  • 说明:hive中有四种全局排序:order by、内部排序:sort by、分区排序:distribute by、组合排序:cluster by。

order by(全局排序)

  • 说明:全局排序是在一个MapReduce中进行排序的。

  • 参数:

    • ASC:是升序的意思和mysql一样,同时也是默认的参数。

    • DESC:降序的意思和MySQL中一样。

  • 举例:查询学生的信息并且按成绩高低排序

select * from student_score_info order by score
  • 注意:以上这种操作,在实际工作中要慎用,应为使用的如果不是数据库,而是数据仓库软件例如现在的hive ,操作的是数据仓库执行的数据量是非常庞大的,如果使用了全局排序则可能资源的严重消耗。

sort by(内部排序)

  • 说明:每个mapreduce的内部排序,对全局结果集来说并不是排序。

  • 关键字:sort by

  • 步骤:

    • 设置reduce的个数:
    set mapreduce.job.reduce=3;
    
    • 语句:
    select * from student_score_info sort by score
    
  • 注意:排序后的结果直接看不出来,得要将数据导出到本地才能看出效果

distribute by(分区排序)

  • 说明:类似MR中的partition ,进行分区的时候使用的,一般结合sort by关键字使用。

  • 关键字:distribute by

  • 例子:先按照部门编号分区,在按照员工编号排序。

    • 必须要设置reduce的数量不为1 (为多个)
    set mapreduce.job.reduce=2
    
    • 语句:
    nsert overwrite local directory '/data/sort/emp2'
    select * from emp distribute by deptno sort by empno desc;
    
  • 注意:distribute by 语句必须写在 sort by 之前;对于distribute by 的测试的时候必须给定多个reduce 不然是没有办法分区的。

cluster by

  • 说明:当distribute by与sort by 字段相同的时候,可以使用cluster by 关键字。

  • 关键字:cluster by

  • 例子:

insert overwrite local directory '/data/sort/emp4'
select * from emp cluster by deptno;
  • 注意:能分区也可以排序,但缺点就是只能对一个字段使用;不能指定 asc 或者desc 默认降序排序。

hive中的order by、sort by、distribute by、cluster by排序相关推荐

  1. Hive中的order by ,sort by ,distribute by , cluster by 区别

    #Hive的本质就是MapReduce #设置reduce个数 set mapreduce.job.reduces=num  //设置num数量的reduce #查看设置reduce个数 set ma ...

  2. Hive中的四种排序方式(order by,sort by,distribute by,cluster by)使用与区别详解

    在平时的Hive数仓开发工作中经常会用到排序,而Hive中支持的排序方式有四种,这里结合具体的案例详细介绍一下他们的使用与区别: order by sort by distribute by clus ...

  3. 4种排序方式比较:order by, sort by, distribute by, cluster by

    文章记录了4种排序方式:order by, sort by, distribute by, cluster by 总结: order by 全局排序,只有一个 Reducer,通过order对字段进行 ...

  4. hive中order by,sort by, distribute by, cluster by作用以及用法

    1. order by Hive中的order by跟传统的sql语言中的order by作用是一样的,会对查询的结果做一次全局排序,所以说,只有hive的sql中制定了order by所有的数据都会 ...

  5. hive四种排序Order By , Sort By ,Distribute By ,Cluster By

    前文 Hive的本质是MapReduce,MapReduce中如何排序的?? MapReduce分为几种: 1.全排序order By: 结果只有一个(也就是只有一个分区),所有的数据整体有序. 2. ...

  6. order by,sort by,distribute by,cluster by的区别是什么?

    前言 本文隶属于专栏<1000个问题搞定大数据技术体系>,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢! 本专栏目录结构和参考文献请见1000个问题搞定大数据技 ...

  7. 一篇文章彻底掌握 hive 中的 ORDER/SORT/CLUSTER/DISTRIBUTE BY 和 BUCKET 桶表

    大家好,我是明哥! 本片文章,我们来总结下,HIVE 中的 order/sort/cluster/distribute by 和 BUCKET 桶表 1 ORDER BY ORDER BY 会对 SQ ...

  8. hive 中排序order by,sort by,distribute by使用

    前提:hive 中使用的排序有oder by, sort by,distribute By,cluster By 具体使用如下 测试数据: 0: jdbc:hive2://hadoop-03:1000 ...

  9. Hive中4个By Sort By 、Order By、Distrbute By、 Cluster By区别

    1)Sort By:分区内有序: 2)Order By:全局排序,只有一个Reducer: 3)Distrbute By:类似MR中Partition,进行分区,结合sort by使用. 4) Clu ...

最新文章

  1. c#自动登录网页,浏览页面
  2. Linux 802.11 Driver Developer’s Guide
  3. idea debug的使用
  4. 新页面,简单的tree视图写法
  5. java中rank函数_sql rank()函数
  6. mybatis generator修改默认生成的sql模板
  7. IP路由故障关于BGP的疑问解答
  8. tinypng upload一键压缩上传工具
  9. SQLi LABS Less 17 报错注入
  10. 无法启动windows audio服务,错误提示126.
  11. moss item adding
  12. Django-----模板嵌套
  13. 工业和能源1994-2019年省级面板数据
  14. 3G门户GO手机浏览器第一时间试用
  15. 20 统计量及其抽样分布——样本比例的抽样分布
  16. WEB电商项目广告管理与缓存解决方案
  17. iOS 获取当前app的名称和版本号
  18. JavaScript原型链实现继承
  19. B端产品运营:学习笔记
  20. 业界最全,阿里云混合云灾备服务上线!

热门文章

  1. 华为应用市场业务介绍
  2. Mac操作系统-软件安装
  3. C语言/C++常见习题问答集锦(六十四) 之兔子繁殖(递归与非递归)
  4. 分享一个超nice的数据分析实战案例, “手把手”教学,收藏等于学会
  5. html隐藏汉堡按钮,12种汉堡包图标按钮变形动画特效
  6. 因为相信所以看见,既然看见注定坚信《17》
  7. SQL Server 获取2019年节假日列表(可用于Java、.Net系统实现)
  8. 电脑同步控制android设备,Total Control 免费使用电脑同时控制多台手机的教程及使用方法...
  9. java imageio 保存_java-ImageIO保存回原始大小
  10. 流量的秘密—Google Analytics网站分析与优化技巧(第2版)