hive以半小时为维度进行统计的需求

从2020/04/22日开始，往延3天，按req_id关联，统计曝光事件与点击事件之间的时间间隔分布情况，按30分钟为粒度，
点击事件字段：req_id,clickTime，
曝光事件字段：req_id，exposureTime
需要统计clickTime-exposureTime在各个时间差（30分钟，60分钟，90分钟。。。）的百分率
数据结果如下：

时间间隔(单位分钟) 占比情况（%）备注
30 80
60 95
90 96
120 98
150 99
思路：
1.用req_id 关联点击事件left join 曝光事件，且曝光时间和点击事件都存在的情况下，click[20200422],exposure[20200420,20200421,20200422]
2.获取点击时间和曝光时间
3.利用2步骤中的点击时间-曝光时间差得到时间差
4.计算各个时间差的占比

function etldata() {echo "start etldata"beeline -e "select time,count,sum,sum(rate) over(rows between UNBOUNDED PRECEDING and CURRENT ROW)from(selecttime,count,sum,(count*100.00)/sum as ratefrom(select time,count,sum(count) over() as sumfrom(select (time+1)*30 as time,count(*) as countfrom (selectclick.req_id,click.rtime as ctime,expo.rtime as etime,floor((click.rtime-expo.rtime)/1000/60/30) as time,row_number() over(partition by expo.req_id) as rnfrom (select rtime,req_idfrom tmp.ad_click_bwhere data_date=2020042406) clickleft join (select rtime,req_idfrom tmp.ad_exposure_bwhere data_date>=2020042404 and data_date<=2020042406  ) expo on click.req_id = expo.req_id)cli_epo where rn=1 group by time )t2)t1 )t order by time asc"echo "end etldata"
}function main() {etldata
}main

hive以半小时为维度进行统计的需求相关推荐

hadooppythonsql_半小时搞定Hadoop+Mysql+Hive+Python
1. 说明搭建过Hadoop集群的小伙伴一定知道,如果不用docker,半小时配好Hadoop+Mysql+Hive(后简称Hive)肯定是胡吹,有了Docker镜像,没有说明文档,配好了也不一定会 ...
使用lambda去重、map排序、按任意时间间隔（小时、半小时、分钟）进行结果统计
1.lambda去重 public static <T> Predicate<T> distinctByKey(Function<? super T, Object> ...
hive+mysql+速度_半小时搞定Hadoop+Mysql+Hive+Python
1. 说明搭建过Hadoop集群的小伙伴一定知道,如果不用docker,半小时配好Hadoop+Mysql+Hive(后简称Hive)肯定是胡吹,有了Docker镜像,没有说明文档,配好了也不一定会 ...
mysql统计每半小时内的数据（查寻某段时间内的数据）
mysql统计每半小时内的数据(查寻某段时间内的数据) 表结构 sql展示 sql说明结果展示思考需求:统计某段时间内的数据,以半小时为单位统计表结构 sql展示 SELECT @rank:= ...
mysql按天，小时，半小时，N分钟，分钟进行数据分组统计
mysql按天,小时,半小时,N分钟,分钟进行数据分组统计 mysql不同时间粒度下的分组统计按天统计按小时统计按半小时统计按N分钟统计按分钟统计 mysql不同时间粒度下的分组统计我们在 ...
hive通过grouping sets多维度组合去重统计避免使用distinct
在hive中,如果遇到多维度组合统计,并且要进行去重统计,例如统计不同维度组合的访问用户数,比如统计运营商.手机品牌.网络类型的用户数,怎样避免不用ditinct(因为distinct效率低),并且g ...
Mysql统计每个小时或半小时数据的数量
Mysql 查询一天中,每个小时数据的数量 Mysql 查询一天中每半小时记录的数量
smarty半小时快速上手入门教程
本文讲述了smarty快速上手入门的方法,可以让读者在半小时内快速掌握smarty的用法.分享给大家供大家参考.具体实现方法如下: 一.smarty的程序设计部分: 在smarty的模板设计部分我简单 ...
土拍熔断意味着什么_半小时3宗地接连熔断今日长沙土拍关键字：“焱”
来源:凤凰网房产长沙站 4月27日,注定会在2020年长沙土拍史上画下浓墨重彩的一笔. 这一天,长沙土地市场迎来出让高峰,7宗地块集中出让,包括3宗工业用地和4宗经营性用地.3宗工业用地与往常一样,上 ...

hive以半小时为维度进行统计的需求

hive以半小时为维度进行统计的需求相关推荐

最新文章

热门文章