一:将爬虫大作业产生的csv文件上传到HDFS

查看文件中前10条信息,即可证明是否上传成功。

二.对CSV文件进行预处理生成无标题文本文件

创建一个deal.sh,主要实现数据分割成什么样的意思

执行deal.sh 对数据进行分割预处理并输出形成movie.txt

三.把hdfs中的文本文件最终导入到数据仓库Hive中

同样的,查看数据前10显示出来,和前面的csv对面显得很整齐,这就是处理数据后的样子。

四.在Hive中查看并分析数据

首先启动hive之后进行创建数据库再创表,语句如图下:

然后再查看一下数据,显示的数据格式正确即正确。

五.用Hive对爬虫大作业产生的进行数据分析

1.用户满意度分析:

在数据中分别获取评分为5,4,3,2,1的数量,然后进行分析,获取的数据如图所示:

评分为5的数量

评分为4的数量

评分为3的数量

评分为2的数量

评分为1的数量

根据统计数据,做出了饼图,如图所示:

由图可以看出四星以上占据了大部分,于是我在计算一下影片的平均数,如图所示

平均数为4.4左右,更加能够证明用户对该影片的满意度较高!

2.用户所在城市分析

统计出粉丝所在城市数量最多的20个城市

评分星级大于4的粉丝集中所在的排名前20的城市。

从数据我们可以看出,观众所在最多的20个城市都是属于比较经济发达的城市,基本都是一线,二线城市,他们在影视方面为贡献了一些GDP,同时从一些方面上可以体会为当地居民的生活恩格尔系数是不低的。

3.观众对影片的关注度

一部热门的影片在还没开始上映时就可以受到观众的关注,关注度的大小在一定程度上看出了观众对观看该影片的渴望度。

遇上统计了一下还没开始上映就有评论的数量,该影片的上映日期是2019-4-4,故我们可以看出在该日期之前的评论是756条,说明该片的关注度还是OK的。

剩下的数量就是看完之后才会有的评论,69103条,说明该影片给观众多少留下一些印象。

4.观众观看时间分析

统计一下观众在某个时间片刻评论的数量多,证明着用户在评论时间的差不多时间就观看了电影,统计如下图所示:

因此我们可以推断出观众在观看该影片大多时间都是在傍晚场至晚上场。

于是接着统计一下上映7天每天的数量,由于数据中的日期数据类型比较特殊,如果直接统计需要进行数据类型转化有点麻烦,故我各自统计了每天的数量

由图下的语句进行统计4月4日的数量,类推得到7天每天的数量。

一直到4月11号,同样的语句就不放太多图了。。。

于是整理了一下,4月4日-4月11日的数量分别是350,699,949,714,485,342,275,236

从数据中可以看出6日的观众评论数是最多的,再弄一个折线波动图就更直观了。

从图中我们很直观地看出了在影片在开播7日之内,6日的观看数(评论数)是最多的!

5.出现的问题解决:

1.在做这个过程中,数据在导入到hive时有分数列和时间列的数据出现NULL,如图所示:

通过查找资料,解决方案为:重新建立表,然后把日期列和分数列的数据类型写成STRING就可以了,然后就会发现数据格式是正确的!

2.当我统计7天内的总数据量使用语句select * from analysee(表) where startime between ''2019/4/4 11:11‘ and '2019/4/10 11:11'时一直显示为0.

解决方案:由于我这里的数据格式为:2019/4/4 11:11,数据不是为date,故直接使用

故有两种解决方案,一:把日期列的数据进行格式化为’2019-1-2’,这样的话容易比较,就是有点复杂而已

二:简单思路多重复是记录每一天是数据量(我使用的是此方案,若数据天数太多则不建议)

三:在导入之前先用excel设计好自己想要的格式再重新上传到hdfs和hive中,结果会很方便

转载于:https://www.cnblogs.com/hongna/p/11008281.html

基于hive的《反贪风暴4》的影评相关推荐

  1. 让我用69406条评论告诉你“反贪风暴”好不好看!!!

    作业要求来自:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3075 上个星期去看了电影<反贪风暴>,该片讲述了ICAC陆 ...

  2. Spark大数据-基于Hive和Spark的淘宝双11数据分析与预测

    基于Hive和Spark的淘宝双11数据分析与预测 1.系统和环境要求(版本仅供参考): Linux: centos7 MySQL: 5.7.16 Hadoop: 2.7.1 Hive: 1.2.1 ...

  3. 胖子哥的大数据之路(10)- 基于Hive构建数据仓库实例

    一.引言 基于Hive+Hadoop模式构建数据仓库,是大数据时代的一个不错的选择,本文以郑商所每日交易行情数据为案例,探讨数据Hive数据导入的操作实例. 二.源数据-每日行情数据 三.建表脚本 C ...

  4. 给Clouderamanager集群里安装基于Hive的大数据实时分析查询引擎工具Impala步骤(图文详解)...

    不多说,直接上干货! 这个很简单,在集群机器里,选择就是了,本来自带就有Impala的. 扩展博客 给Ambari集群里安装基于Hive的大数据实时分析查询引擎工具Impala步骤(图文详解) 欢迎大 ...

  5. WINCE基于hive注册表的实现

    ********************************LoongEmbedded******************************** 作者:LoongEmbedded(kandi ...

  6. spark2.0.1安装部署及使用jdbc连接基于hive的sparksql

    2019独角兽企业重金招聘Python工程师标准>>> 1.安装 如下配置,除了配置spark还配置了spark history服务 #先到http://spark.apache.o ...

  7. 基于应用层自身反远程线程注入的研究

    基于应用层自身反远程线程注入的研究 现状:目前所有已知的反远程注入方式:r0层hook 句柄的获取,返回失败,让应用层注入者拿不到目标进程的句柄,如hook ntopenprocess ntdubli ...

  8. 26个数据分析案例——第二站:基于Hive的民航客户价值分析

    26个数据分析案例--第二站:基于Hive的民航客户价值分析 实验所需环境 • Python: Python 3.x: • Hadoop2.7.2环境: • Hive2.2.0 数据说明 资料包 链接 ...

  9. 学习笔记:Towards Counterfactual Image Manipulation via CLIP 基于CLIP的反事实图像处理研究

    [ACM MM-2022] Towards Counterfactual Image Manipulation via CLIP 基于CLIP的反事实图像处理研究 1.背景 2. 方法 2.1 整体框 ...

最新文章

  1. Oracle Net Configuration(监听程序和网络服务配置)
  2. 22行代码AC——例题7-1除法(Division UVa 725)——解题报告
  3. IDEA中新建项目Static Web 中没有vue.js
  4. P1469 找筷子(python3实现)-- 10分
  5. hash表、java中的hashMap/hashSet
  6. SkyDrive Explorer 把微软25GB网络硬盘搬进“我的电脑”
  7. The servlet name already exists.解决方法
  8. 使用doxygen查看文件包含关系图
  9. Atitit. 异常的使用总结最佳实践java .net php Vo8f
  10. 聊一聊云电脑、云游戏以及阿里云的“无影”
  11. debian dos2unix
  12. 微信音频通话数据保存服务器,微信语音通话怎么录MP3音频文件
  13. hodj 1008 Elevator (模拟题)
  14. Unity 预编译选项
  15. 恒生电子面试(面试介绍,面试流程,面试建议,面试题库(软测方向))
  16. 2022CTFSHOW菜狗杯部分MISC(二)
  17. 声明$(function(){})的含义
  18. 怎么样拍摄出优质短视频|抖音短视频拍摄技巧
  19. seo文章批量更新-SEO文章自动批量生成
  20. 基于openssl的EVP对称加密C语言实战案例

热门文章

  1. 7-3 JAVA-水仙花数 (20 分)
  2. 案例分析企业微信带来的功能效果?
  3. 工信部“网站备案”域名调整为“beian.miit.gov.cn”
  4. spring boot配置Jackson详解
  5. java实现猜数字游戏,直到猜对猜跳出
  6. C++基础语法:字符串
  7. for语句(循环结构)
  8. 树的概念:层次、高度、深度、宽度
  9. 网络爬虫:基于有道的文本翻译
  10. 一个简单答题系统的设计与实现(二)