hive sql插入一行数据_Hive查询某一重复字段记录第一条数据
场景:数据库中id、toapp、topin、toclienttype几个字段都相同,receivetime字段不一样,现需要将receive最小的一行查出,其他行舍去。
select
*
from
(
select
*,
row_number() over(partition by id order by receivetime asc) num
from
xxxxxxxxxxxxxxxxxxxx
where
dt = '2019-01-14'
and toapp = 'xxxxxx'
and toclienttype = 'xxxxxx'
and msgrectype = '1'
and systemtime is not null
) as t
where
t.num = 1
这里主要的代码就是row_number() OVER (PARTITION BY COL1 ORDER BY COL2)
这行代码的意思是先对COL1列进行分组,然后按照COL2进行排序,row_number()函数是对分组后的每个组内记录按照COL2排序标号,我们最后取的时候就拿标号为1的一条记录,即达到我的需求。
例子:
empid deptid salary
----------- ----------- ---------------------------------------
1 10 5500.00
2 10 4500.00
3 20 1900.00
4 20 4800.00
5 40 6500.00
6 40 14500.00
7 40 44500.00
8 50 6500.00
9 50 7500.00
row_number() OVER (PARTITION BY deptid ORDER BY salary)
SELECT *, Row_Number() OVER (partition by deptid ORDER BY salary desc) rank FROM employee
结果:
empid deptid salary rank
----------- ----------- --------------------------------------- --------------------
1 10 5500.00 1
2 10 4500.00 2
4 20 4800.00 1
3 20 1900.00 2
7 40 44500.00 1
6 40 14500.00 2
5 40 6500.00 3
9 50 7500.00 1
8 50 6500.00 2
————————————————
版权声明:本文为CSDN博主「dancheren」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/dancheren/article/details/86481376
问题:发现存在一张表中存在相同的两行数据
得到:仅仅保留一行数据
方法:
原理-我们通过
1 select count (字段1,字段2) from 表1;
2
3 结果 200条数据
4
5 select count (distinct 字段1,字段2) from 表1;
6
7 结果 100条数据
8
9 相当于后者可以实现查出来去重后的数据
10
11 create table 表1_bak as select distinct 字段1,字段2 from 表1; --备份表数据
12
13 delete from 表1;
14
15 insert into 表1 select * from 表1_bak;
Hive中使用Distinct踩到的坑
问题描述:
在使用Hive的过程中,用Distinct对重复数据进行过滤,得出了一个违背认知的结果,百思不得其解。
假设:test表中有100W数据,对test表按照a, b, c, d, e去重。
一、使用Distinct的SQL如下:
SQL1 :select count(distinct a, b, c, d, e) from test;
得出结果: 2W+。
根据数据特点第一感觉,并不会有那么多重复数据,对自己的distinct使用产生了怀疑,因此用group by校验结果。
二、使用Group by的SQL如下:
SQL2 :select sum (gcount) from (select count(*) gcount from test group by a, b, c, d, e) t
得出结果: 80W+。
这个结果是符合数据特点的;
三、修改SQL1,去掉一个字段;
SQL3:select count(distinct b, c, d, e) from test;
得出结果:90W+。
四、对比SQL1和 SQL3
按照4个字段distinct 理论上一定比 5个字段distinct 结果少, 测试结果缺恰恰相反;
原因就是因为a列中包含null, 按我的认知以为所有的null值会被归结为同一个,可实际上hive并不会;
所以distinct的列中如果含有null值,会导致结果不准,需要将null值替换为一个统一的值。
修改如下:
select count(distinct nvl(a, 0), b, c, d, e) from test;
如上,问题解决!
————————————————
版权声明:本文为CSDN博主「UncleMing5371」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/UncleMing5371/article/details/85236709
hive中的distinct用法:
HIVESQL中ROW_NUMBER() OVER语法以及示例
ROW_NUMBER() OVER函数的基本用法
语法:ROW_NUMBER() OVER(PARTITION BY COLUMNORDER BY COLUMN)
详解:
row_number() OVER (PARTITION BY COL1 ORDERBY COL2)表示根据COL1分组,在分组内部根据COL2排序,而此函数计算的值就表示每组内部排序后的顺序编号(该编号在组内是连续并且唯一的)。
场景描述:
在Hive中employee表包括empid、depid、salary三个字段,根据部门分组,显示每个部门的工资等级。
1、原表查看:在Hive中employee表及其内容如下所示:
2、执行SQL。
SELECT *, Row_Number() OVER (partition by deptid ORDER BY salary desc) rank FROM employee
3、查看结果。
————————————————
版权声明:本文为CSDN博主「汀桦坞」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/wiborgite/article/details/80521593
我的使用:
(SELECT * FROM tm_data_room_${this_ds}_${this_ts}_per_hour_tmp1) as a
left join
(
SELECT DISTINCT(k.setid),k.ds,k.ts,k.game_mode,k.create_clubid as clubid,k.leagueid,k.is_satellite,k.is_entity,k.ensure_chips,k.gameset_end_time from
(
select * from
(select *,Row_Number() OVER (partition by setid ORDER BY gameset_end_time desc) rank from gameset_info_log_flow
where ds = ${this_ds} and ts = ${this_ts} and room_mode = 3 and gameset_status=100 and gameset_start_time != 0 and gameset_end_time !=0
) as t
where t.rank = 1
) as k
--gameset_info_log_flow
--where ds = ${this_ds} and ts = ${this_ts} and room_mode = 3 and gameset_status=100 and gameset_start_time != 0 and gameset_end_time !=0
) as b
on a.setid = b.setid
hive sql插入一行数据_Hive查询某一重复字段记录第一条数据相关推荐
- 【sql进阶】查询每天、每个设备的第一条数据
需求如下 每个设备(不同DeviceID).每天会向数据库插入多条数据,求每天.每个设备插入的第一条数据.下面SQL中的 ShareRecommendID 类比不同设备的DeviceID. ROW_N ...
- SQL分组获取记录的第一条数据——PARTITION BY
在查询数据时如果有重复,我们都知道可以用distinct去重,但使用distinct只能去除所有查询列都相同的记录,如果有一个字段不同,distinct是无法去重的,但我们还想要实现这样的效果,这时我 ...
- Lambda表达式 Linq SQL Server 分组后获取第一条数据或最小(最大)数据
1.Lambda表达式 以下是从网上粘贴下来 经测试失败 提示方法"First"只能用作最终查询操作.请考虑在这个实例中使用方法"FirstOrDefault" ...
- oracle分组查询取第一条数据,160804、oracle查询:取出每组中的第一条记录
oracle查询:取出每组中的第一条记录 按type字段分组,code排序,取出每组中的第一条记录 方法一: select type,min(code) from group_info group b ...
- php mysql只获取一条数据_php mysql 查询只返回第一条数据
php mysql 查询只返回第一条数据 $search = mysql_query("select * from `info`"); $search = mysql_fetch_ ...
- oracle 取分组第一行,oracle分组后取每组第一条数据
oracle 分组后取每组第一条数据 '数据格式 分组取第一条的效果 sql SELECT * FROM (SELECT ROW_NUMBER() OVER(PARTITION BY x ORDER ...
- 利用partition分组查询 查询每个分组第一条数据
利用partition分组查询 查询每个分组第一条数据 数据库:sqlserver (其他数据库没有尝试) row_number() over(partition by year(createtime ...
- mysql插入数据,根据相关字段判断这条数据是否存在,存在就不插入,不存在就插入
mysql插入数据,根据相关字段判断这条数据是否存在,存在就不插入,不存在就插入 简单写一个Android MySQL数据库管理帮助类,代码质量有待提升. public class MySQLiteO ...
- SQL 连接 表,取副表的第一条数据
两个表是一(A表)对多(B表)的关系,join的时候,B表只对应显示第一条数据(某些条件).sql该如何写? 表A Aid title days 1 清远二天游 2 2 东莞一天游 1 3 深圳小梅沙 ...
最新文章
- 2018热点总结:BERT最热,GANs最活跃,每20分钟就有一篇论文...
- 云拨测助力节卡机器人,全面优化海外网站性能
- 【转】matlab函数编译成dll供Cpp调用的方法
- linux 删除单个创建文件夹,Linux 删除文件夹和创建文件的命令
- CentOS Linux 7编译安装Redis
- oracle9i的erp数据库无法正常关闭的解决方法。
- JDK5.0的11个主要新特征
- vue项目使用SockJS插件实现webSocket通信
- android 铃声格式,安卓铃声是什么格式 常见的主流安卓铃声格式有哪些
- 检测卡常见错误:1A、1B、20、21、22
- qq计算机丢失msvcp100,Win10无法运行QQ提示缺少MSVCR100.dll?解决方案
- 厦门大学研究生计算机复试分数线,厦门大学2017年硕士研究生复试分数线
- maven 插件 aven-assembly--plugin的使用
- 跨境电商一件代发和专线小包是什么意思?有什么区别?
- 详解文件存储空间管理中的位示图法
- 流体力学-----连续性方程的推导和理解
- 【Kubernetes】K8s集群operator模式安装minio
- chrony+gpsd部署pps校时
- ibm 服务器主板坏掉硬盘数据恢复,RAID损坏后 对数据的完整备份
- 国内外GIS流行软件之概述
热门文章
- 变换编码(DCT)基本理解
- javascript / DOM、BOM、document、window 区别和联系
- node 没有界面的浏览器_node.js爬虫入门(二)爬取动态页面(puppeteer)
- linux串口boost,Boost串口通信第一课 boost::asio::serial_port基本使用
- 打响汽车信息安全战,百度Apollo构建最高等级安全防护盾牌
- java 可用内存_总可用内存java
- python交互窗口怎么才能不连着上一个程序_python实现启动一个外部程序,并且不阻塞当前进程...
- 计算机科学与技术专业导论_教育部最新公布!西安工业大学新增4个本科专业!...
- Android自绘制控件
- 12月5日 第二冲刺周期个人站立会议内容报告(第五天)