hive sql插入一行数据_Hive查询某一重复字段记录第一条数据

场景：数据库中id、toapp、topin、toclienttype几个字段都相同，receivetime字段不一样，现需要将receive最小的一行查出，其他行舍去。

select

from

(

select

row_number() over(partition by id order by receivetime asc) num

from

xxxxxxxxxxxxxxxxxxxx

where

dt = '2019-01-14'

and toapp = 'xxxxxx'

and toclienttype = 'xxxxxx'

and msgrectype = '1'

and systemtime is not null

) as t

where

t.num = 1

这里主要的代码就是row_number() OVER (PARTITION BY COL1 ORDER BY COL2)

这行代码的意思是先对COL1列进行分组，然后按照COL2进行排序，row_number()函数是对分组后的每个组内记录按照COL2排序标号，我们最后取的时候就拿标号为1的一条记录，即达到我的需求。

例子：

empid deptid salary

----------- ----------- ---------------------------------------

1 10 5500.00

2 10 4500.00

3 20 1900.00

4 20 4800.00

5 40 6500.00

6 40 14500.00

7 40 44500.00

8 50 6500.00

9 50 7500.00

row_number() OVER (PARTITION BY deptid ORDER BY salary)

SELECT *, Row_Number() OVER (partition by deptid ORDER BY salary desc) rank FROM employee

结果：

empid deptid salary rank

----------- ----------- --------------------------------------- --------------------

1 10 5500.00 1

2 10 4500.00 2

4 20 4800.00 1

3 20 1900.00 2

7 40 44500.00 1

6 40 14500.00 2

5 40 6500.00 3

9 50 7500.00 1

8 50 6500.00 2

————————————————

原文链接：https://blog.csdn.net/dancheren/article/details/86481376

问题：发现存在一张表中存在相同的两行数据

得到：仅仅保留一行数据

方法：

原理-我们通过

1 select count (字段1，字段2) from 表1；

3 结果 200条数据

5 select count (distinct 字段1，字段2) from 表1；

7 结果 100条数据

9 相当于后者可以实现查出来去重后的数据

11 create table 表1_bak as select distinct 字段1，字段2 from 表1; --备份表数据

13 delete from 表1;

15 insert into 表1 select * from 表1_bak；

Hive中使用Distinct踩到的坑

问题描述：

在使用Hive的过程中，用Distinct对重复数据进行过滤，得出了一个违背认知的结果，百思不得其解。

假设：test表中有100W数据，对test表按照a, b, c, d, e去重。

一、使用Distinct的SQL如下：

SQL1 ：select count(distinct a, b, c, d, e) from test;

得出结果： 2W+。

根据数据特点第一感觉，并不会有那么多重复数据，对自己的distinct使用产生了怀疑，因此用group by校验结果。

二、使用Group by的SQL如下：

SQL2 ：select sum (gcount) from (select count(*) gcount from test group by a, b, c, d, e) t

得出结果： 80W+。

这个结果是符合数据特点的；

三、修改SQL1，去掉一个字段；

SQL3：select count(distinct b, c, d, e) from test;

得出结果：90W+。

四、对比SQL1和 SQL3

按照4个字段distinct 理论上一定比 5个字段distinct 结果少，测试结果缺恰恰相反；

原因就是因为a列中包含null，按我的认知以为所有的null值会被归结为同一个，可实际上hive并不会；

所以distinct的列中如果含有null值，会导致结果不准，需要将null值替换为一个统一的值。

修改如下：

select count(distinct nvl(a, 0), b, c, d, e) from test;

如上，问题解决！

————————————————

原文链接：https://blog.csdn.net/UncleMing5371/article/details/85236709

hive中的distinct用法：

HIVESQL中ROW_NUMBER() OVER语法以及示例

ROW_NUMBER() OVER函数的基本用法

语法：ROW_NUMBER() OVER(PARTITION BY COLUMNORDER BY COLUMN)

详解：

row_number() OVER (PARTITION BY COL1 ORDERBY COL2)表示根据COL1分组，在分组内部根据COL2排序，而此函数计算的值就表示每组内部排序后的顺序编号(该编号在组内是连续并且唯一的)。

场景描述：

在Hive中employee表包括empid、depid、salary三个字段，根据部门分组，显示每个部门的工资等级。

1、原表查看：在Hive中employee表及其内容如下所示：

2、执行SQL。

SELECT *, Row_Number() OVER (partition by deptid ORDER BY salary desc) rank FROM employee

3、查看结果。

————————————————

原文链接：https://blog.csdn.net/wiborgite/article/details/80521593

我的使用：

(SELECT * FROM tm_data_room_${this_ds}_${this_ts}_per_hour_tmp1) as a

left join

(

SELECT DISTINCT(k.setid),k.ds,k.ts,k.game_mode,k.create_clubid as clubid,k.leagueid,k.is_satellite,k.is_entity,k.ensure_chips,k.gameset_end_time from

(

select * from

(select *,Row_Number() OVER (partition by setid ORDER BY gameset_end_time desc) rank from gameset_info_log_flow

where ds = ${this_ds} and ts = ${this_ts} and room_mode = 3 and gameset_status=100 and gameset_start_time != 0 and gameset_end_time !=0

) as t

where t.rank = 1

) as k

--gameset_info_log_flow

--where ds = ${this_ds} and ts = ${this_ts} and room_mode = 3 and gameset_status=100 and gameset_start_time != 0 and gameset_end_time !=0

) as b

on a.setid = b.setid

hive sql插入一行数据_Hive查询某一重复字段记录第一条数据相关推荐

【sql进阶】查询每天、每个设备的第一条数据
需求如下每个设备(不同DeviceID).每天会向数据库插入多条数据,求每天.每个设备插入的第一条数据.下面SQL中的 ShareRecommendID 类比不同设备的DeviceID. ROW_N ...
SQL分组获取记录的第一条数据——PARTITION BY
在查询数据时如果有重复,我们都知道可以用distinct去重,但使用distinct只能去除所有查询列都相同的记录,如果有一个字段不同,distinct是无法去重的,但我们还想要实现这样的效果,这时我 ...
Lambda表达式 Linq SQL Server 分组后获取第一条数据或最小（最大）数据
1.Lambda表达式以下是从网上粘贴下来经测试失败提示方法"First"只能用作最终查询操作.请考虑在这个实例中使用方法"FirstOrDefault" ...
oracle分组查询取第一条数据,160804、oracle查询:取出每组中的第一条记录
oracle查询:取出每组中的第一条记录按type字段分组,code排序,取出每组中的第一条记录方法一: select type,min(code) from group_info group b ...
php mysql只获取一条数据_php mysql 查询只返回第一条数据
php mysql 查询只返回第一条数据 $search = mysql_query("select * from `info`"); $search = mysql_fetch_ ...
oracle 取分组第一行,oracle分组后取每组第一条数据
oracle 分组后取每组第一条数据 '数据格式分组取第一条的效果 sql SELECT * FROM (SELECT ROW_NUMBER() OVER(PARTITION BY x ORDER ...
利用partition分组查询查询每个分组第一条数据
利用partition分组查询查询每个分组第一条数据数据库:sqlserver (其他数据库没有尝试) row_number() over(partition by year(createtime ...
mysql插入数据，根据相关字段判断这条数据是否存在，存在就不插入，不存在就插入
mysql插入数据,根据相关字段判断这条数据是否存在,存在就不插入,不存在就插入简单写一个Android MySQL数据库管理帮助类,代码质量有待提升. public class MySQLiteO ...
SQL 连接表，取副表的第一条数据
两个表是一(A表)对多(B表)的关系,join的时候,B表只对应显示第一条数据(某些条件).sql该如何写? 表A Aid title days 1 清远二天游 2 2 东莞一天游 1 3 深圳小梅沙 ...

hive sql插入一行数据_Hive查询某一重复字段记录第一条数据

hive sql插入一行数据_Hive查询某一重复字段记录第一条数据相关推荐

最新文章

热门文章