order by
对输入做全局排序,因此只有一个reducer,会导致当输入规模较大时,需要较长的计算时间。

SELECT * FROM db_hive.employee ORDER BY empID desc;     //按照empID降序排列
1
sort by
不是全局排序,其在数据进入reducer前完成排序。因此,如果用sort by进行排序,并且设置mapreduce.job.reduces>1,则sort by只保证每个reducer的输出有序,不保证全局有序。

set mapreduce.job.reduces = 3;   //设置reduce数目
> INSERT [OVERWRITE] LOCAL DIRECTORY '/home/hadoop/hive-exp'
> SELECT * FROM db_hive.employee 
> SORT BY empID asc;        //在本地会生成3个reduce结果文件,每个文件按照empID升序排列

distribute by
类似于MapReduce中分区partation,对数据进行分区,结合sort by进行使用
distribute by控制在map端如何拆分数据给reduce端。hive会根据distribute by后面列,对应reduce的个数进行分发,默认是采用hash算法。

> INSERT [OVERWRITE] LOCAL DIRECTORY '/home/hadoop/hive-exp'
> SELECT * FROM db_hive.employee 
> DISTRIBUTE BY deptNum       //按照部门进行分区
> SORT BY empID asc;        //在本地会根据部门生成结果文件,每个文件按照empID升序排列

cluster by
Cluster by 除了具有distribute by的功能外,还会对该字段进行排序。当distribute by和sort by 字段相同时,可以使用cluster by 代替

group by
是对检索结果的保留行进行单纯分组,一般和聚合函数如AVG()、COUNT()、max()等一块用。
--------------------- 
作者:Enzo_bigdata 
来源:CSDN 
原文:https://blog.csdn.net/weixin_41907511/article/details/84950235 
版权声明:本文为博主原创文章,转载请附上博文链接!c

cluster by、group by操作相关推荐

  1. Scala 的几种group集合操作

    Scala 的几种group集合操作 scala的集合中有如下几种group操作 groupBy 按特定条件对集合元素进行分类 grouped 将集合拆分成指定长度的子集合 groupMap 使用方法 ...

  2. mongdb group聚合操作

    1.数据准备 [{"goods_id":1,"cat_id":4,"goods_name":"KD876"," ...

  3. mysql时间戳group by操作,mysql使用FROM_UNIXTIME将时间戳按日期group by

    1.功能 将Unix时间戳转换成指定或默认的日期字符串官宣. 它具有的特点 使用整型的高效存储和查询时间(时间戳) 使用此函数兼容日期的时间处理(可读性) 2. 语法 FROM_UNIXTIME(un ...

  4. 【Flink】Flink Group by 操作 报错 Expression xxx is not being grouped

    1.背景 看到siddhi 语法是可以这样写的 from stream [id="xx"] #window.timeBatch(6 sec) select aa,bb,cc gro ...

  5. MongoDb数组操作 - unwind解包、group分组统计、sort排序

    MongoDB统计文档(Document)的数组(Array)中的各个元素出现的次数 一,问题描述 [使用 unwind 操作符 "解包" Document 里面的Array中的每 ...

  6. 全面剖析Redis Cluster原理和应用 (good)

    redis redis cluster注意的问题 : 1.'cluster-require-full-coverage'参数的设置.该参数是redis配置文件中cluster模式的一个参数,从字面上基 ...

  7. 利用 Chef 在 Red Hat Enterprise Linux 上自动化部署 Mariadb Galera Cluster

    简介 Chef Chef提供了一套自动化安装和配置软件的工具.它允许开发者以模块化的方式(cookbook)来定义软件的安装和配置流程(recipe),以及流程中的可定制参数(attribute).当 ...

  8. group by rollup | cube 学习

    1.如果是ROLLUP(A, B, C)的话,首先会对(A.B.C)进行GROUP BY,然后对(A.B)进行GROUP BY,然后是(A)进行GROUP BY,最后对全表进行GROUP BY操作. ...

  9. DEV05 GBase 8a MPP Cluster 数据库性能优化

    GBase 8a MPP Cluster 数据库性能优化 一.数据库为何要优化 (一)从 DBA 角度谈数据库为何要优化 (二)数据库产品的选型: (三)从 DE(开发工程师)角度谈数据库为何要优化 ...

最新文章

  1. AAAI 2022 | Diaformer: 采用症状序列生成的方式做自动诊断
  2. 你所不知道的ASP.NET Core MVC/WebApi基础系列(二)
  3. 一招一式, 成就“霸业”必做的9件大事
  4. python中字典的索引_按索引访问Python字典的元素
  5. LeetCode 187. 重复的DNA序列
  6. html期末主题作业,tm.html
  7. js实现点击“验证码”开始倒计时
  8. puppet报告系统 dashboard
  9. MkDocs安装、生成文档、风格配置、插件安装
  10. UVa 10286 - Trouble with a Pentagon
  11. cad转pdf格式简易步骤
  12. 2021 App上架到 各应用商店(应用宝,华为,vivo,小米,AppStore)
  13. 英语语法---代词详解
  14. 一步步教你装超强插件~油猴插件管理器Tampermonkey
  15. Tensorlow 中文API:tf.zeros() tf.ones()tf.fill()tf.constant()
  16. matlab报错问题处理,函数或变量无法识别,不受支持的符号、不可见的字符或非 ASCII 字符的粘贴———卸载之前
  17. osi是什么?计算机有哪几层?每一层有什么作用?
  18. SAGA GIS使用———加载以及显示影像
  19. 小厂B端产品啥都干——B端表格设计入门指南(中)
  20. EC11旋转编码器驱动程序

热门文章

  1. 计算机基础作业题及答案,计算机文化基础习题集(含答案)
  2. 力扣(142.1002)补9.17
  3. iPhone11与iPhonexs电池容量和充电速度对比
  4. 门店私域运营,突围线上冲击
  5. RN:metro缓存以及如何清除缓存
  6. 微信公众平台开发之基于百度 BAE3.0 的开发环境搭建(MyEclipse + SVN)
  7. MySQL 后端程序员必知优化!
  8. 运行在命令行的微信 cmd-wechat-terminal
  9. The supplied data appears to be in the Office 2007+ XML问题解决
  10. 信息技术应用 中职计算机教学,新形势下信息技术在中职计算机课程教学中的应用...