直接来看实战,现在有一张表t,这张表存储了每个员工每天的打卡情况,现在需要统计截止目前每个员工的连续打卡天数,表t如下表所示:

uid    tdate    is_flag
1    2020/2/1    1
1    2020/2/2    0
1    2020/2/3    1
1    2020/2/4    1
1    2020/2/5    0
1    2020/2/6    1
1    2020/2/7    1
1    2020/2/8    1
2    2020/2/1    1
2    2020/2/2    0
2    2020/2/3    0
2    2020/2/4    1
2    2020/2/5    1
2    2020/2/6    1
2    2020/2/7    1
2    2020/2/8    1
上表中uid是用户id,tdate是日期,is_flag是记录用户当天是否打卡,1为打卡,0为未打卡。

create table dk(
uid int,tdate string,is_flag int 
)
row format delimited fields terminated by '\t'
stored as textfile
;

load data local inpath '/opt/module/data/dk.txt' into table dk;

我们希望得到的结果为:

uid    flag_days
1    3
2    5
这个逻辑还是挺难想的,第一个想法就是通过前后数据偏移来实现,就是将is_flag向前移动一行或者向后移动一行,然后和原来的is_flag标签做差,如果结果为0,说明前后两天的值是相同的,要么都是0,要么都是1。但是还是不能够得出我们想要的结果。

再换一种思路:如果是连续打卡,那么打卡日期与一个递增的数字依次做差的结果值应该是相等的,不理解这句话没关系,看具体结果你就明白了。

我们先获取每个用户在这一段时间内所有打卡的排名,是所有打卡的排名哦,利用的是窗口函数的row_number(),代码如下:

select  
    uid
    ,tdate
    ,row_number() over(partition by uid order by tdate) date_rank
from
    dk
where is_flag=1;
运行上面的代码,可以得到如下结果:

uid    tdate    date_rank
1    2020/2/1    1
1    2020/2/3    2
1    2020/2/4    3
1    2020/2/6    4
1    2020/2/7    5
1    2020/2/8    6
2    2020/2/1    1
2    2020/2/4    2
2    2020/2/5    3
2    2020/2/6    4
2    2020/2/7    5
2    2020/2/8    6
接着再获取每个打卡日期(tdate)中的日与其打卡日期排名(date_rank)之间的差,比如uid=1的2020/2/3的打卡日期中的3号与其排名(date_rank)2做差等于1,实现代码如下:

select 
    uid
    ,tdate
    ,date_rank
    ,(day(date_format(regexp_replace(tdate,'/','-'),"yyyy-MM-dd")) - date_rank) as day_cha
from 
    (
    select  
        uid
        ,tdate
        ,row_number() over(partition by uid order by tdate) date_rank
    from
        dk
    where is_flag=1
    )t1;
运行上面的代码,最后可以得到如下结果:

uid    tdate    date_rank    day_cha
1    2020/2/1    1    0
1    2020/2/3    2    1
1    2020/2/4    3    1
1    2020/2/6    4    2
1    2020/2/7    5    2
1    2020/2/8    6    2
2    2020/2/1    1    0
2    2020/2/4    2    2
2    2020/2/5    3    2
2    2020/2/6    4    2
2    2020/2/7    5    2
2    2020/2/8    6    2
看上面的结果表,有没有看出点意思来,连续打卡日期的day_cha都是相等的,比如uid=1的2020/2/3和2020/2/4是连续的,他们的day_cha都是1。到这里,如果我们要获取连续打卡天数是不是就很容易了。

不过这里面还有一个问题,就是连续打卡天数是截止目前最近的一个 连续打卡天数还是历史坚持最长的打卡天数,这就是传说中的口径问题哈。虽然在我们这个例子里面,这两种打卡天数的出来的结果是一样的,但是有的时候会是不一样的,比如下面这样的例子:

uid    tdate    is_flag
1    2020/2/1    1
1    2020/2/2    0
1    2020/2/3    1
1    2020/2/4    1
1    2020/2/5    1
1    2020/2/6    0
1    2020/2/7    1
1    2020/2/8    1
上面这个例子中,最近连续打卡天数是2,历史最长的连续打卡天数却是3。

好了,我们继续回到解题上,我们先获取每个用户历史所有连续过得的打卡情况,实现代码如下:

select 
    uid
    ,day_cha
    ,count(tdate) flag_days
from 
    (select 
    uid
    ,tdate
    ,date_rank
    ,(day(date_format(regexp_replace(tdate,'/','-'),"yyyy-MM-dd")) - date_rank) as day_cha
from 
    (
    select  
        uid
        ,tdate
        ,row_number() over(partition by uid order by tdate) date_rank
    from
        dk
    where is_flag=1
    )t1
    )t2
group by 
    uid
    ,day_cha;

运行上面的代码,得到如下结果:

uid    day_cha    flag_days
1    0    1
1    1    2
1    2    3
2    0    1
2    2    5
要获取最近的连续打卡天数,我们只需要把上表中day_cha这一列最大的值对应的flag_days取出来就可以;要获取历史最久的连续打卡天数,我们只需要把上表中flag_days的最大值取出来就可以。直接再来个子查询就好了。

类似的需求可能还有获取过去连续打卡天数大于某个值得人,只需要筛选上表中的flag_days即可达到目的。只要能够生成上面这样每个人历史所有连续打卡的情况表,那么大部分连续打卡相关的需求都可以通过上表来获得。

如何统计连续(连续登陆天数,连续学习天数,连续购买天数)相关推荐

  1. HIVE面试题原理详解 统计用户连续交易的总额、连续登陆天数、连续登陆开始和结束时间、间隔天数

    HIVE面试题原理详解 统计用户连续交易的总额.连续登陆天数.连续登陆开始和结束时间.间隔天数 友情提示 创建数据表 添加数据 流程图 第一步分析(子表a) 第二步分析(子表b) 第三步分析(子表c) ...

  2. SQL——最大连续登录天数、当前连续登录天数、最大连续未登录天数问题、连续登陆N天用户、连续座位号

    问题: 最大连续登录天数 当前连续登录天数 最大连续未登录天数 连续登陆3天用户(三种方法) 选出连续座位的编号 前三个问题所用数据: 原数据表:user_active表 表字段:用户.新增日期.活跃 ...

  3. 【论文笔记】基于强化学习的连续型机械臂自适应跟踪控制

    文章目录 摘要 关键词 0 引言 1 空间连续型机器人动力学模型 1.1 场景假设 (1) 环境假设 (2) 模型假设 1.2 公式分析 2 空间连续型机器人滑模控制器 3 基于强化学习的滑模控制器 ...

  4. 贝叶斯网络结构学习之连续参数处理方法

    题目:贝叶斯网络结构学习之连续参数处理方法 注:本文有更新,参见<有关属性离散化算法CACC的补充说明>和<有关属性离散化算法CACC的再次补充说明>.以下为原文: 首先必须说 ...

  5. 连续因子pta c语言,PTA --- L1-006 连续因子

    一个正整数 N 的因子中可能存在若干连续的数字.例如 630 可以分解为 3×5×6×7,其中 5.6.7 就是 3 个连续的数字.给定任一正整数 N,要求编写程序求出最长连续因子的个数,并输出最小的 ...

  6. mysql如何做连续3天查询_查找至少连续出现三次的所有数字/连续3天的日期【LeetCode】...

    编写一个SQL查询,查找至少连续出现三次的所有数字. +----+-----+ | Id | Num | +----+-----+ | 1 | 1 | | 2 | 1 | | 3 | 1 | | 4 ...

  7. java 获得当月天数_java中 如何获取当月的天数、指定日期的月份天数详解

    代码实现如下:import java.util.Calendar; public class GetDay { public static void main(String[] args) { int ...

  8. mysql 获取天数_MySQL获取某月份的天数

    1.last_day(curdate());获取当月最后一天. 2.DAYOFMONTH(last_day(curdate())); 返回date对应的该月日期.当然这就是当月的天数. 这就出来当月天 ...

  9. java日期的计算(当月剩余天数、获取日期当月的天数)

    日常开发中会遇到关于日期的计算比如:当月的天数.两日期之间的天数.当月剩余天数等等...... 下方为关于日期计算的demo,后期会持续更新... 获取日期当月的天数或某月总天数 /*** 获取日期当 ...

  10. (C++)设计一个日期类Date,包括年、月、日等私有数据成员。要求实现日期的基本运算,包括某日期加上指定天数、某日期减去指定天数、两个日期相差的天数等。

    C++面向对象程序设计课后作业第239页第5题 题目要求:设计一个日期类Date,包括年.月.日等私有数据成员.要求实现日期的基本运算,包括某日期加上指定天数.某日期减去指定天数.两个日期相差的天数等 ...

最新文章

  1. DPDK加速I/O虚拟化
  2. 中国液化石油气(LPG)市场销售现状与竞争发展策略分析报告2022-2028年版
  3. Java主要处理哪些类型的异常_Java技术高效处理异常有哪些呢?
  4. 牛客网 [编程题]餐馆
  5. 2018数学建模国赛总结(A题/编程选手视角)
  6. mysql由浅入深_由浅入深—MySQL数据库
  7. 大数据在各行业中的应用表现
  8. 湖北理工学院c语言实验报告答案,湖北理工学院c语言实验报告七答案.doc
  9. 21天学通C语言-学习笔记(5)
  10. 正则方程(机器学习)
  11. util.Date插入数据库有时差
  12. jQuery常用插件介绍
  13. Android计算器——入门
  14. 关于vlc编解码器暂不支持: VLC 无法解码格式“MIDI” (MIDI Audio)解决
  15. rtl8188linux内核配置,Embeded linux之RTL8188EU/RTL8188ETV使用
  16. 怎么把小丑的可怕和疯狂表现出来
  17. 网上的音乐怎么下载成mp3格式歌曲?这3种一键下载的方法亲测好用!
  18. 如何与离职员工面谈沟通?
  19. MySQL 基操教程(五) SELECT 数据查看之大于、小于
  20. Infor与AI的美丽邂逅

热门文章

  1. 网上赚钱学生应该怎么做?教你自媒体赚钱的方法!
  2. 关于对剑侠情缘的一点建议
  3. android开发怎么做列表,Android复杂表格的实现
  4. 游戏模型:暴雪如何设计出深入人心的游戏角色?这是最详细的一篇分享
  5. 如何看服务器虚拟内存,怎么看服务器的虚拟内存
  6. 夫妻、情侣必看,《半个西瓜》
  7. Android NDK Android.mk文件
  8. dhcp配置(dhcp配置不成功什么意思)
  9. 基于采样的RRT/RRT*/RRT_connect算法笔记及C++实现
  10. 创建(或者删除)数据库、表