Hadoop综合大作业

本次作业要求来源于：https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3363

1.将爬虫大作业产生的csv文件上传到HDFS

2.对CSV文件进行预处理生成无标题文本文件

3.把hdfs中的文本文件最终导入到数据仓库Hive中

4.在Hive中查看并分析数据

5.用Hive对爬虫大作业产生的进行数据分析

（1）查询总共有多少个评论者，结果分析知有401名评论者：

（2）查询评分推荐不重复的数据，结果分析得出只有11条评分推荐不重复的数据：

（3）查询前十名用户和赞同该用户评论的次数

（4）查询观看情况为“看过”和评论时间大于2018/11/27 18:33的用户个数，结果分析有197人：

（5）查询评分推荐为力荐的人数，结果分析有33人：

（6）查询赞同评论次数大于300的数据，结果分析得出只有14条数据：

（7）查询统计观看情况为看过的数据，结果分析得到200条：

（8）查询赞同评论次数并排序：

（9）查询统计观看情况并排序：

（10）查询用户名为“零点”的评论者：

总结：这次数据分析主要是对之前的爬虫大作业爬到《海王》的影评信息进行HDFS上传、 csv文件预处理生成无标题文本文件并导入数据仓库Hive再进行分析查询数据。爬取的数据不算太大，数据处理分析时间适宜，通过Hive的数据分析，我们可以清楚的知道有多少评论者、前十的用户数据等等。总的来说，这次数据分析还算顺利，希望能分析更大更繁杂的数据。

转载于:https://www.cnblogs.com/wytai/p/11061654.html

Hadoop综合大作业相关推荐

Hadoop综合大作业补交4次作业：获取全部校园新闻，网络爬虫基础练习，中文词频统计，熟悉常用的Linux操作...
1.用Hive对爬虫大作业产生的文本文件(或者英文词频统计下载的英文长篇小说)进行词频统计. (1)开启所有的服务,并创建文件夹wwc (2)查看目录下所有文件 (3)把hdfs文件系统中文件夹里的文 ...
Spark综合大作业：RDD编程初级实践
Spark综合大作业:RDD编程初级实践实验配置:操作系统:Ubuntu16.04 | 环境:Spark版本:2.4.0 | 软件:Python版本:3.4.3. 文章目录一.实验目的二.实验平 ...
作业——08 爬虫综合大作业
作业的要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3075 一.把爬取的内容保存取MySQL数据库 import pan ...
爬虫综合大作业（震惊！爬取了590位微信好友后竟然发现了）
作业要求来自https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3159 可以用pandas读出之前保存的数据:见上次博客爬取全部的校园新闻 ...
Python实训day13am【Python网络爬虫综合大作业PPT】
Python实训-15天-博客汇总表今天上午大家抓紧时间继续完成实训报告和PPT,有问题我会在群里跟大家说明, 暂时不用上线直播了. 实训结束后,我会在博客上发布网络爬虫综合大作业题目及解析.
python大作业报告(爬虫分析可视化)_爬虫综合大作业——网易云音乐《Five Hours》爬虫可视化分析...
爬虫综合大作业选择一个热点或者你感兴趣的主题. 选择爬取的对象与范围. 了解爬取对象的限制与约束. 爬取相应内容. 做数据分析与文本分析. 形成一篇文章,有说明.技术要点.有数据.有数据分析图形化展 ...
基于eNSP中大型校园/企业网络规划与设计_ensp综合大作业(ensp综合实验)
作者:BSXY_19计科_陈永跃 BSXY_信息学院注:未经允许禁止转发任何内容基于eNSP中大型校园/企业网络规划与设计_综合大作业(ensp综合实验) 前言及技术/资源下载说明( **未经允许 ...
大学计算机实践教程4.3综合作业,2020年下学期西安电子科技大学《基础实验》综合大作业.docx...
学习中心/函授站 _ 姓名学号西安电子科技大学网络与继续教育学院 2020 学年下学期 <基础实验>期末考试试题 (综合大作业) 题号一总分题分 100 得分考试说明: 1 ...
网络与继续教育学院2022 学年上学期《基础实验》期末考试试题（综合大作业）
一.逻辑门测试实验与门测试原理图见图 1(a)所示,参考此图连接测试电路进行实验(可参阅[实验教程] 实验 4.2) . 1.在答题卡的图 1(b)中给出了输入信号 A.B 之值,请在图 1(b) ...
作业十：爬虫综合大作业
作业要求来源于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3075 一.把爬取的内容保存取MySQL数据库 1.爬取内容保存到数 ...

Hadoop综合大作业

Hadoop综合大作业相关推荐

最新文章

热门文章