ETL数据处理后的业务分析(一)
接https://georgedage.blog.csdn.net/article/details/102996488
ETL后的数据处理!!!
建表:
影音信息数据:
create table gulivideo_ori(
videoId string,
uploader string,
age int,
category array<string>,
length int,
views int,
rate float,
ratings int,
comments int,
relatedId array<string>)
row format delimited
fields terminated by "\t"
collection items terminated by "&"
stored as textfile
用户信息数据:
create table gulivideo_user_ori(
uploader string,
videos int,
friends int)
row format delimited
fields terminated by "\t"
stored as textfile;
show tables:
+---------------------+--+
| tab_name |
+---------------------+--+
| gulivideo_ori |
| gulivideo_user_ori |
+---------------------+--+
导入数据:
load data inpath "/guiliVideo/output/video/2008/0222" into table
gulivideo_ori;
load data inpath "/guiliVideo/user/2008/0903" into table gulivideo_user_ori;
验证一下:
业务分析:
先来个图示:
#1、统计视频观看数 Top10
select videoId,views from gulivideo_ori order by views desc limit 10;
结果展示:
#2、统计视频类别热度 Top10
即统计每个类别有多少个视频,显示出包含视频最多的前 10 个类别。
所以根据之前https://georgedage.blog.csdn.net/article/details/102905208的经验
需要列转行
select videoId,category_name from gulivideo_ori lateral view explode(category) table_tmp as category_name limit 10;
列转行结果:
然后根据这条语句在进行操作
select category_name as category,count(t.videoId) as hot
from (select videoId,category_name from gulivideo_ori lateral view explode(category) table_tmp as category_name) t
group by t.category_name
order by hot desc
limit 10;
结果展示:
出现了问题,目前没有解决,后续再更!!!
beeline下提交任务,报出Error: Error while processing statement: FAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask (state=08S01,code=2)
ETL数据处理后的业务分析(一)相关推荐
- 2021年大数据基础(四):大数据业务分析基本步骤
2021大数据领域优质创作博客,带你从入门到精通,该博客每天更新,逐渐完善大数据各个知识体系的文章,帮助大家更高效学习. 有对大数据感兴趣的可以关注微信公众号:三帮大数据 目录 大数据业务分析基本步骤 ...
- 案例解析|从数据规划、业务分析到管理决策的数据治理方案
随着技术的发展,IT逐渐面临越来越多的挑战,尤其是数据治理方面.而九州通医药集团在IT建设方面不畏艰险,自主研发ERP系统.物流系统,在解决企业自身问题的同时还创新投入商业化,为同行业提供服务,树立标 ...
- (七)CDA 数据分析师Level1考试新版大纲解析(自己整理)PART 7 业务分析报告与数据可视化报表
PART 7 业务分析报告与数据可视化报表(占比 15%) 总体要求 理解业务分析报告与数据可视化报表的制作方法.能够结合业务需求撰写正确的业务分析报告,能够结合业务需求创建全面的数据可视化报表 1. ...
- 《数据分析原理》:6步解决业务分析难题
▲点击上方卡片关注我,回复"8",加入数据分析·领地,一起学习数据分析,持续更新数据分析学习路径相关资料~(精彩数据观点.学习资料.数据课程分享.读书会.分享会等你一起来乘风破浪~ ...
- 自动驾驶开发云平台业务分析
自动驾驶开发云平台业务分析 自动驾驶车辆量产需积累大量里程经验,传统车端研发和测试方式,无法满足市场需求,业界普遍采用"云+端"研发迭代新模式,通过测试车队采集海量道路环境数据,在 ...
- 独家 | 每个业务分析专家应具备的9个关键技能
作者:ABHIRAJ SURESH 翻译:Kay 校对:李嘉骐 本文长度为2900字,建议阅读10+分钟 本文为大家介绍了每个业务分析专家应具备的9个关键技能,并对每个技能做了简单的介绍. 我们经常在 ...
- 业务分析之--权限管理
1.业务分析 权限说的是不同的用户对同一个系统有不同访问权限,其设计的本质是:给先给用户分配好URL,然后在访问的时候判断该用户是否有当前访问的URL. 2.实现 2.1数据库设计标准5表权限结构 2 ...
- BABOK - 开篇:业务分析知识体系介绍
本文更新版已挪至 http://www.zhoujingen.cn/itbang/328.html ---------------------------------------------- 当 ...
- 山哥新作:架构师必备技能之业务分析
1 业务分析 业务分析是应用系统的思想和方法,把复杂的需求分解成简单的对象,找出这些对象的基本属性以及彼此之间的关系,系统分析也是系统开发中最重要.也是最困难的阶段,最终的架构设计也要依据业务分析的结 ...
最新文章
- oracle10gr2完全卸载,Oracle10gR2Streams删除所有配置
- php加载外部html,VUE页面加载外部HTML实例详解
- android EditText inputType
- 输入框限制只能输入数字,正数、负数、0,最多两位小数;数字输入框可以输入负数,并最多保留两位小数;el-number-input去掉四舍五入和自动补齐小数;
- python batch_size_Python config.batch_size方法代码示例
- 遇见Flask-Script
- vuex页面刷新后数据丢失
- ubuntn安装qt5.12.10
- Python实现一个代码行数统计工具(以C/C++为例)
- Latex 字体调整-斜体-下划线-加粗-罗马数字
- 在手机相册(ios设备相册)中创建相册
- 蛋白质二级结构预测Linux,哪些蛋白质二级结构预测软件可以批量使用?
- 软件行业的QA与QC的区别
- php 图片消除锯齿,ps如何消除边缘锯齿
- Android Local Manifests机制
- 英语流利说 第25天
- Win10离线安装.NET Framework 3.5的方法总结
- win7 关机速度比较快
- 前端jquery实现图片点击放大缩小
- R代码学习(1)——算术运算、关系运算、逻辑运算
热门文章
- 牛客 - Strange Bulbs(bitset优化拓扑)
- SPOJ - NSUBSTR Substrings(后缀自动机)
- CodeForces - 1270C Make Good(思维+构造)
- HDU4321(位运算二进制1的统计)
- CreateProcess启动游戏注入DLL
- 【网络编程】之六、选择select
- MFC六大核心机制之五、六:消息映射和命令传递
- C,C++中使用可变参数
- 端口复用突破防火墙(图)
- 搭建 LEGO EV3 的 PyCharm Python 开发环境