电影票房之数据分析(Hive)

第1关:统计2020年上映的电影中,当前总票房最高的10部电影

#进入hive

hive

#在hive中创建数据库 mydb

create database mydb;

#使用数据库 mydb

use mydb;

#创建表moviecleaned并使用"/t"分割字段

create table moviecleaned(movie_name string,boxoffice string, box_rate string, sessions string, show_count_rate string, avg_number string, attendance string, total_boxoffice string, movie_days string,current_time string,releaseDate string)
row format delimited fields terminated by '\t'
stored as textfile;

#将本地清洗后的数据导入moviecleaned表中

load data local inpath '/data/workspace/myshixun/data/movies.txt' into table moviecleaned;

#创建top10_boxoffice表,用来存放数据查询的结果

create table top10_boxoffice(movie_name string, boxoffice float) row format delimited fields terminated by '\t' stored as textfile;

#查询,并将结果导入top10_boxoffice表中

insert overwrite table top10_boxoffice
select movie_name,max(round(total_boxoffice,1)) m
from moviecleaned
WHERE releaseDate like '2020%'
group by movie_name
ORDER BY m DESC
limit 10;

第2关: 统计2020年国庆假期中电影票房增长最多的三部电影及其每日的票房数据

#创建boxoffice_national_day表,用来存放数据查询的结果

create table boxoffice_national_day(movie_name string, boxoffice float,dates string) row format delimited fields terminated by '\t' stored as textfile;

#查询,并将结果导入boxoffice_national_day表中

insert overwrite table boxoffice_national_day
select movie_name,boxoffice,current_time
from moviecleaned
WHERE movie_name in
(select t.movie_name from(select movie_name,sum(boxoffice) as n from moviecleaned WHERE current_time between '2020-10-01' and '2020-10-07' GROUP BY movie_name order by n desc LIMIT 3) as t)
and  current_time between '2020-10-01' and '2020-10-07';

第3关:统计2020年中当日综合总票房最多的10天

#创建day_max_boxoffice表,用来存放数据查询的结果

create table day_max_boxoffice(dates string, boxoffice float)
row format delimited fields terminated by '\t' stored as textfile;

#查询,并将结果导入day_max_boxoffice表中

insert overwrite table day_max_boxoffice
select current_time,round(sum(boxoffice),2) as n
from moviecleaned
WHERE releaseDate like '2020%'
group by current_time
ORDER BY n DESC limit 10;

第4关:统计2020年首映的电影上映后7天的电影票房信息

#创建movie_boxoffice表,用来存放数据查询的结果

create table movie_boxoffice(movie_name string,dates string, boxoffice float)
row format delimited fields terminated by '\t' stored as textfile;

#查询,并将结果导入movie_boxoffice表中

insert overwrite table movie_boxoffice
select t.movie_name,moviecleaned.current_time,boxoffice
from moviecleaned left join
(select movie_name,current_time from moviecleaned WHERE movie_days="上映首日" and releaseDate like "2020%" GROUP BY movie_name,current_time) t
on moviecleaned.movie_name=t.movie_name
WHERE moviecleaned.current_time between t.current_time and DATE_ADD(t.current_time,+6)
ORDER BY t.movie_name,moviecleaned.current_time;

第5关:统计2020年元旦节与国庆节放假后7天的观影人数

#创建movie_boxoffice表,用来存放数据查询的结果

create table festival_boxoffice(dates string,festival string, num int) row format delimited fields terminated by '\t' stored as textfile;

#查询,并将结果导入movie_boxoffice表中

insert overwrite table festival_boxoffice
select split(current_time,'-')[2],case
when  t.current_time  between '2020-10-01' and '2020-10-07' then 'national_day'
when  t.current_time between '2020-01-01' and '2020-01-07' then 'new_year_day'
else 'other' END as festival ,
cast(sum(num) as bigint)
from (select current_time,avg_number*sessions as num from moviecleaned
WHERE current_time between '2020-10-01' and '2020-10-07' or current_time between '2020-01-01' and '2020-01-07') t
GROUP BY current_time;

电影票房之数据分析(Hive)相关推荐

  1. 电影票房之数据分析(Hive)-- 第2关

    电影票房之数据分析(Hive)-- 第2关 第2关:统计2020年国庆假期中电影票房增长最多的三部电影及其每日的票房数据 本关任务 基于EduCoder平台提供的初始数据集,统计国庆假期中电影票房增长 ...

  2. python电影数据分析报告_【python数据分析实战】电影票房数据分析(二)数据可视化...

    在上一部分<[python数据分析实战]电影票房数据分析(一)数据采集> 已经获取到了2011年至今的票房数据,并保存在了mysql中. 本文将在实操中讲解如何将mysql中的数据抽取出来 ...

  3. DataEase看中国 - 中国影星“成龙”电影票房数据分析

    背景介绍 说起成龙,我们并不陌生,著名的动作明星.以武打动作片出道,凭借动作片<红番区>打入好莱坞,该片打破北美外语片票房纪录.         目前,由成龙.郭麒麟等主演的新片<龙 ...

  4. 【大数据分析专业毕设之基于python爬虫的电影票房大数据预测分析+大屏可视化分析

    [大数据分析专业毕设之基于python爬虫的电影票房大数据预测分析+大屏可视化分析-哔哩哔哩https://b23.tv/saIKtBH flask web框架,数据使用requests模块爬取数据, ...

  5. 用Python分析了十年电影票房,原来我错过了这么多好电影!

    "玩电影票房数据,我教你啊" 3月8日妇女节,我很期待的超级英雄电影<惊奇队长>上映了,票房表现很快过亿,但大众口碑却让人失望. 一个有趣且常见的现象是,隔壁获奖无数, ...

  6. 【推荐】揭秘谷歌电影票房预测模型

    近日,谷歌公布了一项重要研究成果 – 电影票房预测模型.该模型能够提前一个月预测电影上映首周的票房收入,准确度高达94%.这在业内引起了强烈讨论,不少内人士认为该模型非常适合好莱坞电影公司通过预测票房 ...

  7. 十年电影票房数据爬取与分析 | 免费数据教程

    3月8日妇女节,我很期待的超级英雄电影<惊奇队长>上映了,票房表现很快过亿,但大众口碑却让人失望. 一个有趣且常见的现象是,隔壁获奖无数,口碑爆炸的<绿皮书>,票房却远远不如& ...

  8. 电影票房多视图可视化(echarts)

    可视化小白本学期一门课的作业报告,欢迎交流学习. 文章目录 一. 数据分析-WHAT 1. 属性数据 2. 数据预处理 二. 任务设计-WHY 1. 展示 2. 对比 3. 查询 4. 注释 三. 可 ...

  9. 基于python 的电影票房可视化系统

    一.介绍 电影票房可视化系统是一个实时分析电影票房的系统,应用Python爬虫.Flask框架.Echarts等技术实现. 二.系统运行图 首页 实时票房排名 票房排行top10 电影类型票房占有率 ...

最新文章

  1. 你的计算机无法启动一键还原,教你电脑怎么一键还原
  2. php mysql 简单聊天室_聊天室phpmysql(一)
  3. 对象属性的调用_面向对象的三主线之一:Java类及类的成员(1)
  4. 矩阵一维卷积c++_深度神经网络卷积层计算加速与优化
  5. Matlab | 空间域水印技术:LSB(Least Significant Bit):计算峰值信噪比PSNR(matlab源代码)
  6. 关于ie6下提交上传表单的注意事项
  7. Android开发之xml动画(补间动画)记录
  8. Android 第一篇
  9. 涅槃重生的下一个超级风口:8本书助你赢在未来
  10. ES6/03/函数的定义方式和调用方式,函数内的this指向,改变函数中this指向的三个方法(call(),apply(),bind())
  11. zbrush 添加纹理贴图_ZBrush油泥粘土雕塑笔刷Digital Clay Pack
  12. html商城网站模板
  13. 测试php连接mysql的实例实现
  14. 2019CCPCQHD Angle Beats
  15. 管理好团队的七个要点,你做到了几个?
  16. 数据库数据模型(关系型模型与非关系模型的区别)
  17. Cisco *** Client 报错问题
  18. 彻底解决spring mvc XSS漏洞问题(包括json的格式的入参和出参)
  19. prometheus 配置服务器监控、服务监控、容器中服务监控与告警
  20. 2000元 组装车 思路

热门文章

  1. 两种聚类方法——K均值聚类(K-means)算法和模糊C均值聚类(FCM)算法的简述与在MATLAB中的实现
  2. samba共享服务的部署及安全优化
  3. Jaccard 相似度
  4. java计算机毕业设计web在线考试系统源码+mysql数据库+系统+lw文档+部署
  5. 读张逸的领域驱动设计之应对软件复杂度笔记
  6. Python selenium+pyautogui写的一个12306抢票
  7. Git修改文件大小写
  8. 18位公民身份证号码的编排规则
  9. ubuntu 安装VS
  10. arduino串口发送数据显示到OLED上