cluster by、group by操作
order by
对输入做全局排序,因此只有一个reducer,会导致当输入规模较大时,需要较长的计算时间。
SELECT * FROM db_hive.employee ORDER BY empID desc; //按照empID降序排列
1
sort by
不是全局排序,其在数据进入reducer前完成排序。因此,如果用sort by进行排序,并且设置mapreduce.job.reduces>1,则sort by只保证每个reducer的输出有序,不保证全局有序。
set mapreduce.job.reduces = 3; //设置reduce数目
> INSERT [OVERWRITE] LOCAL DIRECTORY '/home/hadoop/hive-exp'
> SELECT * FROM db_hive.employee
> SORT BY empID asc; //在本地会生成3个reduce结果文件,每个文件按照empID升序排列
distribute by
类似于MapReduce中分区partation,对数据进行分区,结合sort by进行使用
distribute by控制在map端如何拆分数据给reduce端。hive会根据distribute by后面列,对应reduce的个数进行分发,默认是采用hash算法。
> INSERT [OVERWRITE] LOCAL DIRECTORY '/home/hadoop/hive-exp'
> SELECT * FROM db_hive.employee
> DISTRIBUTE BY deptNum //按照部门进行分区
> SORT BY empID asc; //在本地会根据部门生成结果文件,每个文件按照empID升序排列
cluster by
Cluster by 除了具有distribute by的功能外,还会对该字段进行排序。当distribute by和sort by 字段相同时,可以使用cluster by 代替
group by
是对检索结果的保留行进行单纯分组,一般和聚合函数如AVG()、COUNT()、max()等一块用。
---------------------
作者:Enzo_bigdata
来源:CSDN
原文:https://blog.csdn.net/weixin_41907511/article/details/84950235
版权声明:本文为博主原创文章,转载请附上博文链接!c
cluster by、group by操作相关推荐
- Scala 的几种group集合操作
Scala 的几种group集合操作 scala的集合中有如下几种group操作 groupBy 按特定条件对集合元素进行分类 grouped 将集合拆分成指定长度的子集合 groupMap 使用方法 ...
- mongdb group聚合操作
1.数据准备 [{"goods_id":1,"cat_id":4,"goods_name":"KD876"," ...
- mysql时间戳group by操作,mysql使用FROM_UNIXTIME将时间戳按日期group by
1.功能 将Unix时间戳转换成指定或默认的日期字符串官宣. 它具有的特点 使用整型的高效存储和查询时间(时间戳) 使用此函数兼容日期的时间处理(可读性) 2. 语法 FROM_UNIXTIME(un ...
- 【Flink】Flink Group by 操作 报错 Expression xxx is not being grouped
1.背景 看到siddhi 语法是可以这样写的 from stream [id="xx"] #window.timeBatch(6 sec) select aa,bb,cc gro ...
- MongoDb数组操作 - unwind解包、group分组统计、sort排序
MongoDB统计文档(Document)的数组(Array)中的各个元素出现的次数 一,问题描述 [使用 unwind 操作符 "解包" Document 里面的Array中的每 ...
- 全面剖析Redis Cluster原理和应用 (good)
redis redis cluster注意的问题 : 1.'cluster-require-full-coverage'参数的设置.该参数是redis配置文件中cluster模式的一个参数,从字面上基 ...
- 利用 Chef 在 Red Hat Enterprise Linux 上自动化部署 Mariadb Galera Cluster
简介 Chef Chef提供了一套自动化安装和配置软件的工具.它允许开发者以模块化的方式(cookbook)来定义软件的安装和配置流程(recipe),以及流程中的可定制参数(attribute).当 ...
- group by rollup | cube 学习
1.如果是ROLLUP(A, B, C)的话,首先会对(A.B.C)进行GROUP BY,然后对(A.B)进行GROUP BY,然后是(A)进行GROUP BY,最后对全表进行GROUP BY操作. ...
- DEV05 GBase 8a MPP Cluster 数据库性能优化
GBase 8a MPP Cluster 数据库性能优化 一.数据库为何要优化 (一)从 DBA 角度谈数据库为何要优化 (二)数据库产品的选型: (三)从 DE(开发工程师)角度谈数据库为何要优化 ...
最新文章
- AAAI 2022 | Diaformer: 采用症状序列生成的方式做自动诊断
- 你所不知道的ASP.NET Core MVC/WebApi基础系列(二)
- 一招一式, 成就“霸业”必做的9件大事
- python中字典的索引_按索引访问Python字典的元素
- LeetCode 187. 重复的DNA序列
- html期末主题作业,tm.html
- js实现点击“验证码”开始倒计时
- puppet报告系统 dashboard
- MkDocs安装、生成文档、风格配置、插件安装
- UVa 10286 - Trouble with a Pentagon
- cad转pdf格式简易步骤
- 2021 App上架到 各应用商店(应用宝,华为,vivo,小米,AppStore)
- 英语语法---代词详解
- 一步步教你装超强插件~油猴插件管理器Tampermonkey
- Tensorlow 中文API:tf.zeros() tf.ones()tf.fill()tf.constant()
- matlab报错问题处理,函数或变量无法识别,不受支持的符号、不可见的字符或非 ASCII 字符的粘贴———卸载之前
- osi是什么?计算机有哪几层?每一层有什么作用?
- SAGA GIS使用———加载以及显示影像
- 小厂B端产品啥都干——B端表格设计入门指南(中)
- EC11旋转编码器驱动程序
热门文章
- 计算机基础作业题及答案,计算机文化基础习题集(含答案)
- 力扣(142.1002)补9.17
- iPhone11与iPhonexs电池容量和充电速度对比
- 门店私域运营,突围线上冲击
- RN:metro缓存以及如何清除缓存
- 微信公众平台开发之基于百度 BAE3.0 的开发环境搭建(MyEclipse + SVN)
- MySQL 后端程序员必知优化!
- 运行在命令行的微信 cmd-wechat-terminal
- The supplied data appears to be in the Office 2007+ XML问题解决
- 信息技术应用 中职计算机教学,新形势下信息技术在中职计算机课程教学中的应用...