hive中有四种排序:

1、全局排序:order by

2、内部排序:sort by

3、分区排序:distribute by

4、组合排序:cluster by

全局排序:order by

说明:全局排序是在一个MapReduce中进行排序的。

参数:

ASC:是升序的意思和mysql一样,同时也是默认的参数。

DESC:降序的意思和MySQL中一样。

举例:查询学生的信息并且按成绩高低排序

select * from student_score_info order by score

注意:以上这种操作,在实际工作中要慎用,应为使用的如果不是数据库,而是数据仓库软件例如现在的hive ,操作的是数据仓库执行的数据量是非常庞大的,如果使用了全局排序则可能资源的严重消耗

内部排序:sort by

说明:每个mapreduce的内部排序,对全局结果集来说并不是排序。

关键字:sort by

步骤:

设置reduce的个数: set mapreduce.job.reduce=3;

语句:

select * from student_score_info sort by score

注意:排序后的结果直接看不出来,得要将数据导出到本地才能看出效果

分区排序:distribute by

说明:类似MR中的partition ,进行分区的时候使用的,一般结合sort by关键字使用。

关键字:distribute by

例子:先按照部门编号分区,在按照员工编号排序。

必须要设置reduce的数量不为1 (为多个) set mapreduce.job.reduce=2

语句:

nsert overwrite local directory '/data/sort/emp2'

select * from emp distribute by deptno sort by empno desc;

注意:distribute by 语句必须写在 sort by 之前;对于distribute by 的测试的时候必须给定多个reduce 不然是没有办法分区的。

组合排序:cluster by

说明:当distribute by与sort by 字段相同的时候,可以使用cluster by 关键字。

关键字:cluster by

例子:

insert overwrite local directory '/data/sort/emp4'

select * from emp cluster by deptno;

注意:能分区也可以排序,但缺点就是只能对一个字段使用;不能指定 asc 或者desc 默认降序排序。

mysql distribute by_Hive学习(八) 排序:order by、sort by、distribute by、cluster by相关推荐

  1. hive四种排序Order By , Sort By ,Distribute By ,Cluster By

    前文 Hive的本质是MapReduce,MapReduce中如何排序的?? MapReduce分为几种: 1.全排序order By: 结果只有一个(也就是只有一个分区),所有的数据整体有序. 2. ...

  2. hive 中排序order by,sort by,distribute by使用

    前提:hive 中使用的排序有oder by, sort by,distribute By,cluster By 具体使用如下 测试数据: 0: jdbc:hive2://hadoop-03:1000 ...

  3. 4种排序方式比较:order by, sort by, distribute by, cluster by

    文章记录了4种排序方式:order by, sort by, distribute by, cluster by 总结: order by 全局排序,只有一个 Reducer,通过order对字段进行 ...

  4. Hive中的四种排序方式(order by,sort by,distribute by,cluster by)使用与区别详解

    在平时的Hive数仓开发工作中经常会用到排序,而Hive中支持的排序方式有四种,这里结合具体的案例详细介绍一下他们的使用与区别: order by sort by distribute by clus ...

  5. 【MYSQL 按照固定值进行排序 order by field()】

    MYSQL 按照固定值进行排序 总结 #MySQL中 order by 自定义值排序 mysql 原有的排序方式:当排序的字段未int类型的时候,咱们可以直接 order by num: mysql ...

  6. hive中order by,sort by, distribute by, cluster by作用以及用法

    1. order by Hive中的order by跟传统的sql语言中的order by作用是一样的,会对查询的结果做一次全局排序,所以说,只有hive的sql中制定了order by所有的数据都会 ...

  7. Hive中的排序:order by/sort by/cluster by

    Hive中关于排序的几种方法,有必要深入理解其原理. Order by 全局排序 1)Order By:全局排序,只有一个 Reducer,即使我们在设置set reduceer的数量为多个,但是在执 ...

  8. MySQL高级知识(八)——ORDER BY优化

    前言:在使用order by时,经常出现Using filesort,因此对于此类sql语句需尽力优化,使其尽量使用Using index. 0.准备 #1.创建test表. drop table i ...

  9. Hive中的order by ,sort by ,distribute by , cluster by 区别

    #Hive的本质就是MapReduce #设置reduce个数 set mapreduce.job.reduces=num  //设置num数量的reduce #查看设置reduce个数 set ma ...

最新文章

  1. mysql commit 机制_1024MySQL事物提交机制
  2. 当CV遇上联邦学习,一起聊聊视觉联邦技术
  3. 常用的HTTP请求头与响应头
  4. Microsoft uaa bus driver for high definition audio
  5. ArrayList整理
  6. knime实现python编写脚本
  7. 软件测试第一部分——初步概念与过程
  8. dtproperties表小解[网络收集]
  9. 算法_快速排序算法C/C++
  10. 别闹了,费曼先生! --纪念费曼百年诞辰
  11. 基于C51单片机的锂电池容量检测仪电压电流检测 原理图PCB程序设计
  12. wps重复上一步快捷键_word回到上一步快捷键是什么
  13. 戴尔G5 5590重装系统
  14. MATLAB无法直接打开M文件
  15. java代码实现打气球游戏_关于javascript和css3开发打气球小游戏的完整代码
  16. AdamW优化器简单理解
  17. python学习笔记全过程_Python学习过程笔记整理(四)
  18. thumbnails 变黑_解决java压缩图片透明背景变黑色的问题
  19. 2022年义乌医院三基考试临床检查多选专项模拟题及答案
  20. 深度揭秘:抖音短视频一天涨粉一万怎么做:国仁楠哥

热门文章

  1. 11.2 项目风险管理
  2. 高精地图编辑生成 opendrive OpenSCENARIO
  3. 扶桑号战列舰【RMQ+分治】
  4. PVE虚拟机篇-pve软件换源
  5. 数字图像处理之雷登变换与图像重建(MATLAB)
  6. 期货突破法进场是等突破K走完再进场还是突破瞬间就进场?
  7. win环境golang安装
  8. 欧空局中国区域数据的筛选
  9. 使用MATLAB将raw格式图片转换为txt
  10. 七年级认识计算机软件教案,七年级信息技术公开课教案