问题描述(举例)
表结构(students_article):
student_id, article
id_1,article_1
id_1,article_2
id_1,article_3
id_2,article_4
id_2,article_5
hive sql 取某个表中某个班级每个学生的随机5篇作文

方案
order by与rand函数结合
千万级数据中进行随机抽样,PARTITION BY进行分组,组内使用rand()函数进行随机抽样,order by方式全局排序,rn关键字限制抽样返回的数据量。

SELECT *
FROM (SELECT student_id, regexp_replace(article, '\t', '') AS article, ROW_NUMBER() OVER (PARTITION BY student_idORDER BY rand()) AS rnFROM database_name.students_articleWHERE d = '2022-08-10'
)
WHERE rn <= 5

hive sql 分组随机取数相关推荐

  1. 等概率随机取数算法的几种实现(洗牌算法)

    等概率随机取数算法的几种实现 最近读了项目中的工具脚本,发现一个随机取数的函数,功能大概是从M个数中不重复的随机取出N个数,算是数组随机排序然后取前N个值的变种. 脚本实现采取原始的方法,每随机取一个 ...

  2. 随机函数(随机取数)

    Math.random( )是随机函数:随机取0~1之间的任意数: 1.四舍五入函数 如果是一位整数,那么就要用到四舍五入函数:Math.round( ); 例如: alert(Math.round( ...

  3. SQL(12) 抽样取数

    sql 刷题 1.抽样取数 1.抽样取数 表结构为user_id,reg_time,age, 写一句sql按user_id随机抽样2000个用户 写一句sql取出按各年龄段(每10岁一个分段,如(0, ...

  4. hive sql 分组拼接同一列字符串和hive sql 分组多行拼接为一行的实现方式

    下面图示的结果用hive sql怎么实现?换句话描述就是:hive sql 如何实现分组后拼接同一列的数据呢? 其实,拼接几列字符串并不难,用concat函数就可以实现,concat(col1,col ...

  5. mysql分组随机取数据_MySql分组后随机获取每组一条数据的操作

    思路:先随机排序然后再分组就好了. 1.创建表: create table `xdx_test` ( `id` int(11) not null, `name` varchar(255) defaul ...

  6. 数组随机取数(大乐透机选投注)

    闲着没事写着完呢 package com.yjl.daletou.util;import java.awt.Color; import java.awt.Dimension; import java. ...

  7. R语言 dataframe 取指定行列filter 随机取数

    一.dataframe基本操作 1.读取数据集,生成dataframe,查看前几行数据 data <- read.csv("../input/ab_data.csv", he ...

  8. Hive sql分组函数grouping sets、cube、rollup用法简介

    文章目录 1.数据如下: 2.建表如下: 3.grouping sets 4.cube 5.rollup 1.数据如下: user_id,dep_id,group_id,salary 10001,a, ...

  9. python字典随机取数

    import randomlistb = {1: '张三', 2: '李四', 3: '王五', 4: '赵六', 5: '王麻子', 6: '包子', 7: '豆浆'} lista = {1: '张 ...

最新文章

  1. C语言的实现经过(C代码到CPU执行)
  2. 此windows副本不是正版解决方法
  3. linux qt 读系统信息,使用Qt获取系统版本
  4. 互联网日报 | 理想汽车交付量突破30000辆;美团王慧文正式退休;寺库打造首个奢侈品直播基地...
  5. 网络KPI异常检测之时序分解算法
  6. 5个球放入3个箱子_国内5个经典的美食小吃,吃过3个以上算厉害,你吃过几个?...
  7. jdbc如何使用oracle数据库连接池,使用JDBC连接池技术连接Oracle数据库
  8. shell 命令 --ps aux | grep
  9. poj 2479 Maximum sum(递推)
  10. 什么是Hadoop的MapReduce?
  11. 15.Elasticsearch 7.15 Query DSL 之 Wildcard查询、Regexp查询
  12. rostopic发送cmd_vel指令
  13. 2021执念斩长河年度总结
  14. citus介绍和centos7安装部署和集群搭建
  15. 基于51单片机的脉搏心率心跳血压体温测量检测仿真(仿真+原理图+源码+论文)
  16. VMware虚拟磁盘VMDK格式说明书1.1---3 The Descriptor File描述文件
  17. Arthur van Hoff
  18. linux 使用rename命令批量重命名文件
  19. Linux网络编程常用头文件解释
  20. 小鲨鱼在51nod小学

热门文章

  1. 如何编写BI项目之ETL文档
  2. IOS app 上线流程
  3. 赶集网CEO杨浩涌向搜狐IT确认
  4. 数据库主流容灾方案对比分析
  5. QGIS下载各种DEM的插件(SRTM 90m/30m -ALOS 30m -Cop 30m/90m-NASADEM Global DEM)
  6. ESlint 自动格式化代码 补缺代码 添加空格
  7. Jquery生成条形码到网页以及打印条形码
  8. 美通企业日报 | 内容质量是亚太媒体最重视的指标;“豆蔻青”将成2020年度色彩...
  9. 微信小程序注册入口及流程(完整版教程)
  10. 【原创】EJB开发基础——EJB规范