percentile:percentile(col, p) col是要计算的列(值必须为int类型),p的取值为0-1,若为0.2,那么就是2分位数,依次类推。percentile_approx:percentile_approx(col, p)。列为数值类型都可以。percentile_approx还有一种形式percentile_approx(col, p,B),参数B控制内存消耗的近似精度,B越大,结果的精度越高。默认值为10000。当col字段中的distinct值的个数小于B时,结果就为准确的百分位数。

有一组年龄数据,其中有几位老人和小孩子,剔除这些异常的数据,然后算一个有影响力的平均值。


select avg(age) as avg_age,avg(casewhen age < high_ageand age > low_age then ageend) as handle_avg_age
from(select name,age,percentile_approx(age, 0.9) over(partition by 1) as high_age,percentile_approx(age, 0.2) over(partition by 1) as low_agefrom(select 'a' as name,68 as ageunion allselect 'b' as name,73 as ageunion allselect 'c' as name,20 as ageunion allselect 'd' as name,21 as ageunion allselect 'e' as name,23 as ageunion allselect 'f' as name,24 as ageunion allselect 'g' as name,21 as ageunion allselect 'h' as name,20 as ageunion allselect 'i' as name,8 as ageunion allselect 'g' as name,9 as age) a) a

结果

avg_age  handle_avg_age
28.7    21.5

HIVE SQL分位数percentile使用方法案例相关推荐

  1. 记录hive sql报错,return code1和return code2解决方法

    执行hive sql语句的时候非常容易出现return code 1.return code 2.return code 3的情况,我就遇到了很多次,code3在某次意外中得以解决 但是引发了code ...

  2. oracle 最大值及其_学习笔记:Oracle优化 SQL查询最大值 最小值时的优化方法案例...

    天萃荷净 select max(id),min(id) from table优化,分享开发DBA需求,在SQL语句查询最大值.最小值数据时的优化方式案例 1.查看数据库版本 SQL> selec ...

  3. 【数据分析师求职面试指南】必备编程技能整理之Hive SQL必备用法

    文章目录 熟悉Python 懂R语言 掌握SQL 大数据基础 数据库常用类型 多表查询 更多 聚合函数 distinct case when 窗口函数 动态更新 一行变多行 调优 内容整理自<拿 ...

  4. hive sql 报错后继续执行_Hive优化之Spark执行引擎参数调优(二)

    Hive是大数据领域常用的组件之一,主要是大数据离线数仓的运算,关于Hive的性能调优在日常工作和面试中是经常涉及的的一个点,因此掌握一些Hive调优是必不可少的一项技能.影响Hive效率的主要有数据 ...

  5. 图解大数据 | Hive搭建与应用@实操案例

    作者:韩信子@ShowMeAI 教程地址:http://www.showmeai.tech/tutorials/84 本文地址:http://www.showmeai.tech/article-det ...

  6. HIVE SQL tricks

    HIVE SQL拒绝big int比较解决方法 在实际业务中,为了排查问题,有时候需要查看指定uid,shop_id的记录.往往这种id字段都是bigint类型数据,直接where uid = XXX ...

  7. 【文末有惊喜!】Hive SQL血缘关系解析与应用

    本文字数:7860字 预计阅读时间:20分钟 + 1 研究背景 随着企业信息化和业务的发展,数据资产日益庞大,数据仓库构建越来越复杂,在数仓构建的过程中,常遇到数据溯源困难,数据模型修改导致业务分析困 ...

  8. Hadoop Hive sql 语法详细解释

    Hive 是基于Hadoop 构建的一套数据仓库分析系统.它提供了丰富的SQL查询方式来分析存储在Hadoop 分布式文件系统中的数据,能够将结构 化的数据文件映射为一张数据库表,并提供完整的SQL查 ...

  9. python调用spark和调用hive_Spark(Hive) SQL数据类型使用详解(Python)

    Spark SQL使用时需要有若干"表"的存在,这些"表"可以来自于Hive,也可以来自"临时表".如果"表"来自于Hi ...

最新文章

  1. 内存分配管理 自定义
  2. 【组合数学】组合存在性定理 ( 三个组合存在性定理 | 有限偏序集分解定理 | Ramsey 定理 | 相异代表系存在定理 | Ramsey 定理内容概要 )
  3. 数位屏如何去光标_iPad还是数位板屏?我该选哪个?
  4. c++编程例子_如何开始厉害的C语言编程?大神都是这样开始的!
  5. 庐山真面-Oxite的HelloWorld
  6. go的一个不太理解的赋值问题
  7. 斯坦福博弈论笔记整理活动的任务已重新划分,望周知
  8. 95-910-142-源码-FlinkSQL-FlinkSQL追加模式与缩进模式区别
  9. 物理服务器转虚拟路径,服务器配置虚拟路径
  10. CSS z-index 属性的使用方法和层级树的概念
  11. 基于京东家电商品知识图谱的自动问答系统(二) -- IDEA搭建开发环境
  12. 【物流选址】基于matlab节约算法求解考虑碳排放及带时间窗的物流选址问题【含Matlab源码 1589期】
  13. 你会装系统吗?(安装macOS系统-使用OpenCore引导吃上黑苹果)
  14. 2013年度最强AngularJS资源合集
  15. ERROR: 错误 1406。未能将值 写入项 \Software\Classes\CLSID\{4B75FA16-56AF-4DC4-941D-F84B279DDB15}\LocalServer3
  16. 二叉树翻转/镜像 (Java实现)
  17. [重装系统]戴尔DELL新BIOS设置U盘启动
  18. 视频剪辑,就上这5个网站找素材,免费可商用。
  19. 智慧景区视频监控方案
  20. C/C++ 中文帮助文档

热门文章

  1. 水管工游戏(代码附带注释)2020.10.6
  2. 腾讯优图计算机招聘视觉大咖(2022届校招+实习)
  3. 使用Machin公式计算
  4. matlab测量直流母线上的电压,直流母线
  5. 在word中填充背景颜色的方法
  6. 使用Nginx访问日志统计PV和UV
  7. 1 PDFLib9的安装 及 demo
  8. 项目管理PMBOK中各知识领域过程的关系图
  9. 关于计算机的英语单词及例句,小学生必背英语单词及例句(四年级).doc
  10. 周测作业五(apache的安装与配置)