hive sql 分组随机取数
问题描述(举例):
表结构(students_article):
student_id, article
id_1,article_1
id_1,article_2
id_1,article_3
id_2,article_4
id_2,article_5
hive sql 取某个表中某个班级每个学生的随机5篇作文
方案:
order by与rand函数结合
千万级数据中进行随机抽样,PARTITION BY进行分组,组内使用rand()函数进行随机抽样,order by方式全局排序,rn关键字限制抽样返回的数据量。
SELECT *
FROM (SELECT student_id, regexp_replace(article, '\t', '') AS article, ROW_NUMBER() OVER (PARTITION BY student_idORDER BY rand()) AS rnFROM database_name.students_articleWHERE d = '2022-08-10'
)
WHERE rn <= 5
hive sql 分组随机取数相关推荐
- 等概率随机取数算法的几种实现(洗牌算法)
等概率随机取数算法的几种实现 最近读了项目中的工具脚本,发现一个随机取数的函数,功能大概是从M个数中不重复的随机取出N个数,算是数组随机排序然后取前N个值的变种. 脚本实现采取原始的方法,每随机取一个 ...
- 随机函数(随机取数)
Math.random( )是随机函数:随机取0~1之间的任意数: 1.四舍五入函数 如果是一位整数,那么就要用到四舍五入函数:Math.round( ); 例如: alert(Math.round( ...
- SQL(12) 抽样取数
sql 刷题 1.抽样取数 1.抽样取数 表结构为user_id,reg_time,age, 写一句sql按user_id随机抽样2000个用户 写一句sql取出按各年龄段(每10岁一个分段,如(0, ...
- hive sql 分组拼接同一列字符串和hive sql 分组多行拼接为一行的实现方式
下面图示的结果用hive sql怎么实现?换句话描述就是:hive sql 如何实现分组后拼接同一列的数据呢? 其实,拼接几列字符串并不难,用concat函数就可以实现,concat(col1,col ...
- mysql分组随机取数据_MySql分组后随机获取每组一条数据的操作
思路:先随机排序然后再分组就好了. 1.创建表: create table `xdx_test` ( `id` int(11) not null, `name` varchar(255) defaul ...
- 数组随机取数(大乐透机选投注)
闲着没事写着完呢 package com.yjl.daletou.util;import java.awt.Color; import java.awt.Dimension; import java. ...
- R语言 dataframe 取指定行列filter 随机取数
一.dataframe基本操作 1.读取数据集,生成dataframe,查看前几行数据 data <- read.csv("../input/ab_data.csv", he ...
- Hive sql分组函数grouping sets、cube、rollup用法简介
文章目录 1.数据如下: 2.建表如下: 3.grouping sets 4.cube 5.rollup 1.数据如下: user_id,dep_id,group_id,salary 10001,a, ...
- python字典随机取数
import randomlistb = {1: '张三', 2: '李四', 3: '王五', 4: '赵六', 5: '王麻子', 6: '包子', 7: '豆浆'} lista = {1: '张 ...
最新文章
- C语言的实现经过(C代码到CPU执行)
- 此windows副本不是正版解决方法
- linux qt 读系统信息,使用Qt获取系统版本
- 互联网日报 | 理想汽车交付量突破30000辆;美团王慧文正式退休;寺库打造首个奢侈品直播基地...
- 网络KPI异常检测之时序分解算法
- 5个球放入3个箱子_国内5个经典的美食小吃,吃过3个以上算厉害,你吃过几个?...
- jdbc如何使用oracle数据库连接池,使用JDBC连接池技术连接Oracle数据库
- shell 命令 --ps aux | grep
- poj 2479 Maximum sum(递推)
- 什么是Hadoop的MapReduce?
- 15.Elasticsearch 7.15 Query DSL 之 Wildcard查询、Regexp查询
- rostopic发送cmd_vel指令
- 2021执念斩长河年度总结
- citus介绍和centos7安装部署和集群搭建
- 基于51单片机的脉搏心率心跳血压体温测量检测仿真(仿真+原理图+源码+论文)
- VMware虚拟磁盘VMDK格式说明书1.1---3 The Descriptor File描述文件
- Arthur van Hoff
- linux 使用rename命令批量重命名文件
- Linux网络编程常用头文件解释
- 小鲨鱼在51nod小学
热门文章
- 如何编写BI项目之ETL文档
- IOS app 上线流程
- 赶集网CEO杨浩涌向搜狐IT确认
- 数据库主流容灾方案对比分析
- QGIS下载各种DEM的插件(SRTM 90m/30m -ALOS 30m -Cop 30m/90m-NASADEM Global DEM)
- ESlint 自动格式化代码 补缺代码 添加空格
- Jquery生成条形码到网页以及打印条形码
- 美通企业日报 | 内容质量是亚太媒体最重视的指标;“豆蔻青”将成2020年度色彩...
- 微信小程序注册入口及流程(完整版教程)
- 【原创】EJB开发基础——EJB规范