接https://georgedage.blog.csdn.net/article/details/102996488

ETL后的数据处理!!!

建表:

影音信息数据:

create table gulivideo_ori(
videoId string,
uploader string,
age int,
category array<string>,
length int,
views int,
rate float,
ratings int,
comments int,
relatedId array<string>)
row format delimited
fields terminated by "\t"
collection items terminated by "&"
stored as textfile

用户信息数据:

create table gulivideo_user_ori(
uploader string,
videos int,
friends int)
row format delimited
fields terminated by "\t"
stored as textfile;

show tables:

+---------------------+--+
|      tab_name       |
+---------------------+--+
| gulivideo_ori       |
| gulivideo_user_ori  |
+---------------------+--+

导入数据:

load data inpath "/guiliVideo/output/video/2008/0222" into table
gulivideo_ori;

load data inpath "/guiliVideo/user/2008/0903" into table gulivideo_user_ori;

验证一下:

业务分析:

先来个图示:

#1、统计视频观看数 Top10
select videoId,views from gulivideo_ori order by views desc limit 10;

结果展示:

#2、统计视频类别热度 Top10

即统计每个类别有多少个视频,显示出包含视频最多的前 10 个类别。

所以根据之前https://georgedage.blog.csdn.net/article/details/102905208的经验

需要列转行

select videoId,category_name from gulivideo_ori lateral view explode(category) table_tmp as category_name limit 10;

列转行结果:

然后根据这条语句在进行操作

select  category_name as category,count(t.videoId) as hot 
from (select videoId,category_name from gulivideo_ori lateral view explode(category) table_tmp as category_name) t 
group by t.category_name 
order by hot desc 
limit 10;

结果展示:

出现了问题,目前没有解决,后续再更!!!

beeline下提交任务,报出Error: Error while processing statement: FAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask (state=08S01,code=2)

ETL数据处理后的业务分析(一)相关推荐

  1. 2021年大数据基础(四):​​​​​​​​​​​​​​​​​​​​​大数据业务分析基本步骤

    2021大数据领域优质创作博客,带你从入门到精通,该博客每天更新,逐渐完善大数据各个知识体系的文章,帮助大家更高效学习. 有对大数据感兴趣的可以关注微信公众号:三帮大数据 目录 大数据业务分析基本步骤 ...

  2. 案例解析|从数据规划、业务分析到管理决策的数据治理方案

    随着技术的发展,IT逐渐面临越来越多的挑战,尤其是数据治理方面.而九州通医药集团在IT建设方面不畏艰险,自主研发ERP系统.物流系统,在解决企业自身问题的同时还创新投入商业化,为同行业提供服务,树立标 ...

  3. (七)CDA 数据分析师Level1考试新版大纲解析(自己整理)PART 7 业务分析报告与数据可视化报表

    PART 7 业务分析报告与数据可视化报表(占比 15%) 总体要求 理解业务分析报告与数据可视化报表的制作方法.能够结合业务需求撰写正确的业务分析报告,能够结合业务需求创建全面的数据可视化报表 1. ...

  4. 《数据分析原理》:6步解决业务分析难题

    ▲点击上方卡片关注我,回复"8",加入数据分析·领地,一起学习数据分析,持续更新数据分析学习路径相关资料~(精彩数据观点.学习资料.数据课程分享.读书会.分享会等你一起来乘风破浪~ ...

  5. 自动驾驶开发云平台业务分析

    自动驾驶开发云平台业务分析 自动驾驶车辆量产需积累大量里程经验,传统车端研发和测试方式,无法满足市场需求,业界普遍采用"云+端"研发迭代新模式,通过测试车队采集海量道路环境数据,在 ...

  6. 独家 | 每个业务分析专家应具备的9个关键技能

    作者:ABHIRAJ SURESH 翻译:Kay 校对:李嘉骐 本文长度为2900字,建议阅读10+分钟 本文为大家介绍了每个业务分析专家应具备的9个关键技能,并对每个技能做了简单的介绍. 我们经常在 ...

  7. 业务分析之--权限管理

    1.业务分析 权限说的是不同的用户对同一个系统有不同访问权限,其设计的本质是:给先给用户分配好URL,然后在访问的时候判断该用户是否有当前访问的URL. 2.实现 2.1数据库设计标准5表权限结构 2 ...

  8. BABOK - 开篇:业务分析知识体系介绍

    本文更新版已挪至   http://www.zhoujingen.cn/itbang/328.html ---------------------------------------------- 当 ...

  9. 山哥新作:架构师必备技能之业务分析

    1 业务分析 业务分析是应用系统的思想和方法,把复杂的需求分解成简单的对象,找出这些对象的基本属性以及彼此之间的关系,系统分析也是系统开发中最重要.也是最困难的阶段,最终的架构设计也要依据业务分析的结 ...

最新文章

  1. oracle10gr2完全卸载,Oracle10gR2Streams删除所有配置
  2. php加载外部html,VUE页面加载外部HTML实例详解
  3. android EditText inputType
  4. 输入框限制只能输入数字,正数、负数、0,最多两位小数;数字输入框可以输入负数,并最多保留两位小数;el-number-input去掉四舍五入和自动补齐小数;
  5. python batch_size_Python config.batch_size方法代码示例
  6. 遇见Flask-Script
  7. vuex页面刷新后数据丢失
  8. ubuntn安装qt5.12.10
  9. Python实现一个代码行数统计工具(以C/C++为例)
  10. Latex 字体调整-斜体-下划线-加粗-罗马数字
  11. 在手机相册(ios设备相册)中创建相册
  12. 蛋白质二级结构预测Linux,哪些蛋白质二级结构预测软件可以批量使用?
  13. 软件行业的QA与QC的区别
  14. php 图片消除锯齿,ps如何消除边缘锯齿
  15. Android Local Manifests机制
  16. 英语流利说 第25天
  17. Win10离线安装.NET Framework 3.5的方法总结
  18. win7 关机速度比较快
  19. 前端jquery实现图片点击放大缩小
  20. R代码学习(1)——算术运算、关系运算、逻辑运算

热门文章

  1. 牛客 - Strange Bulbs(bitset优化拓扑)
  2. SPOJ - NSUBSTR Substrings(后缀自动机)
  3. CodeForces - 1270C Make Good(思维+构造)
  4. HDU4321(位运算二进制1的统计)
  5. CreateProcess启动游戏注入DLL
  6. 【网络编程】之六、选择select
  7. MFC六大核心机制之五、六:消息映射和命令传递
  8. C,C++中使用可变参数
  9. 端口复用突破防火墙(图)
  10. 搭建 LEGO EV3 的 PyCharm Python 开发环境