HIveSQL面试题52:近一个月发布的视频中热度最高的top3视频【抖音面试题,不得不去吐槽的一个题目】
目录
0 问题描述
1 数据准备
2 问题分析
3 小结
0 问题描述
现有用户-视频互动表tb_user_video_log
id | uid | video_id | start_time | end_time | if_follow | if_like | if_retweet | comment_id |
1 | 101 | 2001 | 2021-09-24 10:00:00 | 2021-09-24 10:00:30 | 1 | 1 | 1 | NULL |
2 | 101 | 2001 | 2021-10-01 10:00:00 | 2021-10-01 10:00:31 | 1 | 1 | 0 | NULL |
3 | 102 | 2001 | 2021-10-01 10:00:00 | 2021-10-01 10:00:35 | 0 | 0 | 1 | NULL |
4 | 103 | 2001 | 2021-10-03 11:00:50 | 2021-10-03 10:00:35 | 1 | 1 | 0 | 1732526 |
5 | 106 | 2002 | 2021-10-02 11:00:05 | 2021-10-02 11:01:04 | 2 | 0 | 1 | NULL |
6 | 107 | 2002 | 2021-10-02 10:59:05 | 2021-10-02 11:00:06 | 1 | 0 | 0 | NULL |
7 | 108 | 2002 | 2021-10-02 10:59:05 | 2021-10-02 11:00:05 | 1 | 1 | 1 | NULL |
8 | 109 | 2002 | 2021-10-03 10:59:05 | 2021-10-03 11:00:01 | 0 | 1 | 0 | NULL |
9 | 105 | 2002 | 2021-09-25 11:00:00 | 2021-09-25 11:00:30 | 1 | 0 | 1 | NULL |
10 | 101 | 2003 | 2021-09-26 11:00:00 | 2021-09-26 11:00:30 | 1 | 0 | 0 | NULL |
11 | 101 | 2003 | 2021-09-30 11:00:00 | 2021-09-30 11:00:30 | 1 | 1 | 0 | NULL |
(uid-用户ID, video_id-视频ID, start_time-开始观看时间, end_time-结束观看时间, if_follow-是否关注, if_like-是否点赞, if_retweet-是否转发, comment_id-评论ID)
短视频信息表tb_video_info
id | video_id | author | tag | duration | release_time |
1 | 2001 | 901 | 旅游 | 30 | 2021-09-05 07:00:00 |
2 | 2002 | 901 | 旅游 | 60 | 2021-09-05 07:00:00 |
3 | 2003 | 902 | 影视 | 90 | 2021-09-05 07:00:00 |
4 | 2004 | 902 | 影视 | 90 | 2021-09-05 08:00:00 |
(video_id-视频ID, author-创作者ID, tag-类别标签, duration-视频时长, release_time-发布时间)
问题:找出近一个月发布的视频中热度最高的top3视频。
注:
- 热度=(a*视频完播率+b*点赞数+c*评论数+d*转发数)*新鲜度;
- 新鲜度=1/(最近无播放天数+1);
- 当前配置的参数a,b,c,d分别为100、5、3、2。
- 最近播放日期以end_time-结束观看时间为准,假设为T,则最近一个月按[T-29, T]闭区间统计。
- 结果中热度保留为整数,并按热度降序排序。
输出示例:
示例数据的输出结果如下
video_id | hot_index |
2001 | 122 |
2002 | 56 |
2003 |
解释:
最近播放日期为2021-10-03,记作当天日期;近一个月(2021-09-04及之后)发布的视频有2001、2002、2003、2004,不过2004暂时还没有播放记录;
视频2001完播率1.0(被播放次数4次,完成播放4次),被点赞3次,评论1次,转发2次,最近无播放天数为0,因此热度为:(100*1.0+5*3+3*1+2*2)/(0+1)=122
同理,视频2003完播率0,被点赞数1,评论和转发均为0,最近无播放天数为3,因此热度为:(100*0+5*1+3*0+2*0)/(3+1)=1(1.2保留为整数)。
1 数据准备
DROP TABLE IF EXISTS tb_user_video_log, tb_video_info;
CREATE TABLE tb_user_video_log (`uid` string COMMENT '用户ID',video_id string COMMENT '视频ID',start_time string COMMENT '开始观看时间',end_time string COMMENT '结束观看时间',if_follow string COMMENT '是否关注',if_like string COMMENT '是否点赞',if_retweet string COMMENT '是否转发',comment_id string COMMENT '评论ID'
) ;CREATE TABLE tb_video_info (video_id string COMMENT '视频ID',author string COMMENT '创作者ID',tag string COMMENT '类别标签',duration string COMMENT '视频时长(秒数)',release_time string COMMENT '发布时间'
);INSERT INTO tb_user_video_log(uid, video_id, start_time, end_time, if_follow, if_like, if_retweet, comment_id) VALUES(101, 2001, '2021-09-24 10:00:00', '2021-09-24 10:00:30', 1, 1, 1, null),(101, 2001, '2021-10-01 10:00:00', '2021-10-01 10:00:31', 1, 1, 0, null),(102, 2001, '2021-10-01 10:00:00', '2021-10-01 10:00:35', 0, 0, 1, null),(103, 2001, '2021-10-03 11:00:50', '2021-10-03 11:01:35', 1, 1, 0, 1732526),(106, 2002, '2021-10-02 10:59:05', '2021-10-02 11:00:04', 2, 0, 1, null),(107, 2002, '2021-10-02 10:59:05', '2021-10-02 11:00:06', 1, 0, 0, null),(108, 2002, '2021-10-02 10:59:05', '2021-10-02 11:00:05', 1, 1, 1, null),(109, 2002, '2021-10-03 10:59:05', '2021-10-03 11:00:01', 0, 1, 0, null),(105, 2002, '2021-09-25 11:00:00', '2021-09-25 11:00:30', 1, 0, 1, null),(101, 2003, '2021-09-26 11:00:00', '2021-09-26 11:00:30', 1, 0, 0, null),(101, 2003, '2021-09-30 11:00:00', '2021-09-30 11:00:30', 1, 1, 0, null);INSERT INTO tb_video_info(video_id, author, tag, duration, release_time) VALUES(2001, 901, '旅游', 30, '2021-09-05 7:00:00'),(2002, 901, '旅游', 60, '2021-09-05 7:00:00'),(2003, 902, '影视', 90, '2021-09-05 7:00:00'),(2004, 902, '影视', 90, '2021-09-05 8:00:00');
----------------------------------
输出结果如下:
2001|122
2002|56
2003|1
2 问题分析
该题目中各项指标定义非常模糊,很多定义并不明确,明显出题人语文水平并不过关,很多定义并没有直接给出,容易产生歧义。
各项指标的确定:
(1)近一个月的定义:为当前日志表(视频互动表tb_user_video_log)中end_time最新的日期往前减去29天。题中给出的是假设为T,则最近一个月按[T-29, T]闭区间统计。这样的定义实际上有问题的(很无语。。。。),因为存在视频发布当天并没有播放记录的情况。
举个例子:10.03往前推30天是09.04。我们要获取的统计时间区间是09.04-10.03。假设某个视频09.01发布,但是5天后才有第一次播放记录,那么这个视频最早的end_time是09.06,按照这个end_time,用DATEDIFF法来生成,得到的时间区间是09.06-10.03,明显不完整,题目也是没有完全讲清楚。。。。按照题目那样区间的定义肯定有问题。。。。所以此题左边区间应该是end_time -29,右边区间应该是发布时间。。。。
(2)新鲜度:最近无播放天数:当前表中最新日期与该视频的最新播放日期之间的差值。
(题目中并没有给出明确定义,靠猜。。。。。。。。)
新鲜度=1/(最近无播放天数+1)
(3)热度:
a:视频完播率:该题的完播率并没有给出明确定义,基本靠给的例子来猜测。
此处的定义应该是:用户-视频互动表tb_user_video_log中start_time 与end_time的差值大于短视频信息表tb_video_info中的duration时记为一次有效的播放(题目中描述的被播放次数。。。)与实际播放次数的比值(题目中描述的完成播放次数,我去理解实在太烧脑了。。。,实在不得不喷一下。。。)伪代码如下:
SUM(CASE WHEN(unix_timestamp(end_time)-unix_timestamp(start_time))>duration then 1 else 0 end) / COUNT(start.time)
b:点赞数:SUM(CASE WHEN if_like=1 THEN 1 ELSE END)
c:评论数 COUNT(comment_id)
d:转发数 SUM(CASE WHEN if_retweet=1 THEN 1 ELSE 0 END)
最终SQL如下:
selectvideo_id,cast((100 * finish_play_rate + 5 * like_cnt + 3 * comment_cnt + 2 * retweet_cnt) * fresh_rate as decimal(18, 0)) as hot_index from(SELECTtvi.video_id,SUM(CASEWHEN(unix_timestamp(tuvl.end_time) - unix_timestamp(tuvl.start_time)) >= cast(tvi.duration as int) then 1else 0end) / COUNT(tuvl.start_time) as finish_play_rate,SUM(CASEWHEN tuvl.if_like = '1' THEN 1ELSE 0END) as like_cnt,COUNT(tuvl.comment_id) as comment_cnt,SUM(CASEWHEN tuvl.if_retweet = '1' THEN 1ELSE 0END) as retweet_cnt,1 / (datediff(to_date(max(tuvl.last_time)),to_date(max(tuvl.END_time))) + 1) as fresh_rateFROM(select*,max(end_time) over() as last_timefromtb_user_video_log) AS tuvlLEFT JOIN tb_video_info AS tvi ON tuvl.video_id = tvi.video_idWHERETO_DATE(tvi.release_time) >= DATE_SUB(TO_DATE(tuvl.last_time), 29)GROUP BYtvi.video_id) t ORDER BYhot_index DESC LIMIT3
最终结果如下
video_id hot_index
2001 122
2002 56
2003 1
Time taken: 3.316 seconds, Fetched: 3 row(s)
3 小结
这道题源自于牛客网,题目本身没什么难度,但在牛客中通过率极低,原因是题目本身但表达很模糊,很多定义没有直接给出,靠面试者猜,造成了误解,如果面试遇到这种题目90%挂,因为你不能准确理解题意,需要反复和面试官确认,即使做出来了,最终也是失败,而这题竟然出自抖音,面试出题也太随意了,无力吐槽,看来面试有时候真的靠缘分,哈哈哈。。。。
欢迎关注石榴姐公众号"我的SQL呀",关注我不迷路
HIveSQL面试题52:近一个月发布的视频中热度最高的top3视频【抖音面试题,不得不去吐槽的一个题目】相关推荐
- 【案例】下载站自动化 一个月发布3000+原创文章
首先抱歉有几个私信没回复,我看到时已经超过时间消息不能回复. 避免这种情况,如果想私信建议随便找篇文章留言,然后说明不显示或精选.等看到一定会回复并不会放出来.恩 就是传说中的「随迟但到」. 这个所谓 ...
- Tomcat快速入门(Tomcat安装 把一个项目发布到tomcat中 Eclipse配置Tomcat idea配置tomcat)
文章目录 服务器的概念 服务器 Web服务器软件:接收客户端发送的请求和响应客户端请求. 常见的Web服务器软件 Tomcat安装 win下启动乱码问题解决 Tomcat目录介绍 如何把一个项目发布到 ...
- 在编程竞赛中,有6个评委为参赛的选手打分,分数为0-100的整数分。 * (静态初始化一个数组,在数组中随意写入6个分数) 选手的最后得分为: * 去掉一个最高分和一个最低分后 的4个评委平均值。
package Day05;/*** 5.* 需求:在编程竞赛中,有6个评委为参赛的选手打分,分数为0-100的整数分.* (静态初始化一个数组,在数组中随意写入6个分数) 选手的最后得分为:* 去掉 ...
- 交互设计|抖音为什么是上滑查看下一个视频
去年求职的时候,作为一个产品新人,每次体验产品更多的是关注产品的设计细节,总是会觉得xx功能体验特别好,xx界面设计非常合理,xx细节引导非常场景化,非常贴心.但对于产品如何和用户发生交互,交互如何让 ...
- 如何快速从一个视频中分割出多个视频
在我们看视频多的时候不乏会有一些自己喜欢的视频,这些视频中有电影.综艺节目或短视频等不同类型的视频.而遇到这些喜欢的视频时我们难免会有把视频保存下来的冲动,但是视频太长而保存喜欢的只是一个片段保存完整 ...
- .NET 7 RC 2 发布,倒计时一个月发布正式版
微软2022-10-12 发布了 .NET 7 RC 2,下一站是.NET 7正式发布,就在下个月Net Conf 2022(11月8日)期间正式发布.经过长达一年时间的开发,.NET 7 规划的所有 ...
- mysql 查询一个月的时间_mysql日期查询sql语句总结(查询一天,查询一周,查询一个月的数据)...
我的日期 首先我们获取到的日期格式是这样的:2009-2-12或者2009-3-3或者2009-10-12,我们在组合sql语句的时候可以这样:(分了三个例子) 代码如下 @1select * fro ...
- python 一个月有多少天_python中一个月有多少天
在python的datetime模块中没有一个月有多少天的方法,但是可以使用calendar模块获得. 如下代码: import calendar monthRange = calendar.mont ...
- 8月第3周业务风控关注 |广电总局对快手抖音等警告罚款
易盾业务风控周报每周呈报值得关注的安全技术和事件,包括但不限于内容安全.移动安全.业务安全和网络安全,帮助企业提高警惕,规避这些似小实大.影响业务健康发展的安全风险. 1.广电总局巩固对视听网站整治效 ...
最新文章
- 分享一例脚本发版和tomcat重启脚本
- java post 提交数据_使用Post方式提交数据到Tomcat服务器的方法
- 当猪飞起来:也谈创业初期商业模式问题
- 史上最惨锦鲤即将来袭!奖品堪比5年高考3年模拟!
- html5 地图效果,html5 echarts图表插件炫光的分布地图动画特效
- php 5.4 安装xcache,安装xcache为你的PHP加速
- vc6.0 debug 比 release 快??_快速入门快应用——quickapp构建与发布
- [转载]IIS 6.0配置HTTP压缩的步骤
- 【每日算法Day 78】面试经典题:能说出全部四种方法,不录用你都不可能!
- android 可执行程序 root权限,非Root权限的Android上运行可执行文件
- WPF学习笔记——4)使用StackPanel面板进行简单布局
- 社交APP软件开发流程解析
- 2021大学生创业计划书范例
- 软件工程:第三章:可行性分析与需求分析
- 零基础新手如何自学PS
- 【预训练语言模型】MacBERT: Revisiting Pre-trained Models for Chinese Natural Language Processing
- 教室录播系统方案_《课堂教学录播专用教室》建设方案及装备标准
- 【tensorboard】解决ValueError: Duplicate plugins for name projector
- 国学游戏之神州方块源码
- Android10.0CarAudioZone(一)
热门文章
- 响铃:整合通信与视频,网易云能成为丁磊的下一个“爆款”吗?
- 35-博客网站数据库-博文信息数据操作(二)
- ISO15693 I-CODE-2卡
- 主动安全智能防控系统规范要求比较(JT/T883,苏标,陕标,浙标,川标,渝标)
- W ndows10开机密码设置,windows10密码,小编告诉你win10开机密码怎么设置
- Marr-Hildreth边缘检测器
- vue2 几种初始化 挂载方式
- 微信公众号H5页面中获取openId
- 2022出海非洲:摩洛哥电商市场现状及发展前景
- 计算平台常用技术和运维