Hadoop综合大作业
本次作业要求来源于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3363
1.将爬虫大作业产生的csv文件上传到HDFS
2.对CSV文件进行预处理生成无标题文本文件
3.把hdfs中的文本文件最终导入到数据仓库Hive中
4.在Hive中查看并分析数据
5.用Hive对爬虫大作业产生的进行数据分析
(1)查询总共有多少个评论者,结果分析知有401名评论者:
(2)查询评分推荐不重复的数据,结果分析得出只有11条评分推荐不重复的数据:
(3)查询前十名用户和赞同该用户评论的次数
(4)查询观看情况为“看过”和评论时间大于2018/11/27 18:33的用户个数,结果分析有197人:
(5)查询评分推荐为力荐的人数,结果分析有33人:
(6)查询赞同评论次数大于300的数据,结果分析得出只有14条数据:
(7)查询统计观看情况为看过的数据,结果分析得到200条:
(8)查询赞同评论次数并排序:
(9)查询统计观看情况并排序:
(10)查询用户名为“零点”的评论者:
总结:这次数据分析主要是对之前的爬虫大作业爬到《海王》的影评信息进行HDFS上传、 csv文件预处理生成无标题文本文件并导入数据仓库Hive再进行分析查询数据。爬取的数据不算太大,数据处理分析时间适宜,通过Hive的数据分析,我们可以清楚的知道有多少评论者、前十的用户数据等等。总的来说,这次数据分析还算顺利,希望能分析更大更繁杂的数据。
转载于:https://www.cnblogs.com/wytai/p/11061654.html
Hadoop综合大作业相关推荐
- Hadoop综合大作业补交4次作业:获取全部校园新闻,网络爬虫基础练习,中文词频统计,熟悉常用的Linux操作...
1.用Hive对爬虫大作业产生的文本文件(或者英文词频统计下载的英文长篇小说)进行词频统计. (1)开启所有的服务,并创建文件夹wwc (2)查看目录下所有文件 (3)把hdfs文件系统中文件夹里的文 ...
- Spark综合大作业:RDD编程初级实践
Spark综合大作业:RDD编程初级实践 实验配置:操作系统:Ubuntu16.04 | 环境:Spark版本:2.4.0 | 软件:Python版本:3.4.3. 文章目录 一.实验目的 二.实验平 ...
- 作业——08 爬虫综合大作业
作业的要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3075 一.把爬取的内容保存取MySQL数据库 import pan ...
- 爬虫综合大作业(震惊!爬取了590位微信好友后竟然发现了)
作业要求来自https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3159 可以用pandas读出之前保存的数据:见上次博客爬取全部的校园新闻 ...
- Python实训day13am【Python网络爬虫综合大作业PPT】
Python实训-15天-博客汇总表 今天上午大家抓紧时间继续完成实训报告和PPT,有问题我会在群里跟大家说明, 暂时不用上线直播了. 实训结束后,我会在博客上发布网络爬虫综合大作业题目及解析.
- python大作业报告(爬虫 分析 可视化)_爬虫综合大作业——网易云音乐《Five Hours》爬虫可视化分析...
爬虫综合大作业 选择一个热点或者你感兴趣的主题. 选择爬取的对象与范围. 了解爬取对象的限制与约束. 爬取相应内容. 做数据分析与文本分析. 形成一篇文章,有说明.技术要点.有数据.有数据分析图形化展 ...
- 基于eNSP中大型校园/企业网络规划与设计_ensp综合大作业(ensp综合实验)
作者:BSXY_19计科_陈永跃 BSXY_信息学院 注:未经允许禁止转发任何内容 基于eNSP中大型校园/企业网络规划与设计_综合大作业(ensp综合实验) 前言及技术/资源下载说明( **未经允许 ...
- 大学计算机实践教程4.3综合作业,2020年下学期西安电子科技大学《基础实验》综合大作业.docx...
学习中心/函授站 _ 姓 名 学 号 西安电子科技大学网络与继续教育学院 2020 学年下学期 <基础实验>期末考试试题 (综合大作业) 题号 一 总分 题分 100 得分 考试说明: 1 ...
- 网络与继续教育学院2022 学年上学期《基础实验》期末考试试题(综合大作业)
一.逻辑门测试实验 与门测试原理图见图 1(a)所示,参考此图连接测试电路进行实验(可参阅[实验教程] 实验 4.2) . 1.在答题卡的 图 1(b)中给出了输入信号 A.B 之值,请在图 1(b) ...
- 作业十:爬虫综合大作业
作业要求来源于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3075 一.把爬取的内容保存取MySQL数据库 1.爬取内容保存到数 ...
最新文章
- NCBI dbGap数据下载记录
- html写三角形,css3怎么写三角形?
- #pragma multi_compile_fwdbase会增加很多个shader variants
- 对象的多态(核心、困难、重点)
- 肺功能曲线图怎么看_【家装干货】有人说是鸡肋,有人说是功能升级,卫生间装双人洗漱台,你怎么看?...
- c#.net中创建带图标的ListBox
- hashmap冲突的解决方法以及原理分析
- CCF CSP202006-1 线性分类器
- 在windows下添加php的Imagick扩展
- 从你的全世界路过-人到难处需放胆
- java开发电脑分频器,FPGA设计——分频器(2.5分频器的程序)
- opencv图像处理学习(五十七)——峰值信噪比和结构相似性
- iPad被停用,安装iTunes提示安装包出错解决办法
- android usb 网卡驱动,安卓系统手机USB网络驱动
- windows10专业版镜像
- python——operator详解
- UDP进程terminated
- 华为云服务器如何使用
- 中国石油大学计算机评估排名,中国石油大学华东学科评估结果及排名情况怎样...
- react native 使用阿里字体图标库