本次作业要求来源于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3363

1.将爬虫大作业产生的csv文件上传到HDFS

2.对CSV文件进行预处理生成无标题文本文件

3.把hdfs中的文本文件最终导入到数据仓库Hive中

4.在Hive中查看并分析数据

5.用Hive对爬虫大作业产生的进行数据分析

(1)查询总共有多少个评论者,结果分析知有401名评论者:

(2)查询评分推荐不重复的数据,结果分析得出只有11条评分推荐不重复的数据:

(3)查询前十名用户和赞同该用户评论的次数

(4)查询观看情况为“看过”和评论时间大于2018/11/27 18:33的用户个数,结果分析有197人:

(5)查询评分推荐为力荐的人数,结果分析有33人:

(6)查询赞同评论次数大于300的数据,结果分析得出只有14条数据:

(7)查询统计观看情况为看过的数据,结果分析得到200条:

(8)查询赞同评论次数并排序:

(9)查询统计观看情况并排序:

(10)查询用户名为“零点”的评论者:

总结:这次数据分析主要是对之前的爬虫大作业爬到《海王》的影评信息进行HDFS上传、 csv文件预处理生成无标题文本文件并导入数据仓库Hive再进行分析查询数据。爬取的数据不算太大,数据处理分析时间适宜,通过Hive的数据分析,我们可以清楚的知道有多少评论者、前十的用户数据等等。总的来说,这次数据分析还算顺利,希望能分析更大更繁杂的数据。

转载于:https://www.cnblogs.com/wytai/p/11061654.html

Hadoop综合大作业相关推荐

  1. Hadoop综合大作业补交4次作业:获取全部校园新闻,网络爬虫基础练习,中文词频统计,熟悉常用的Linux操作...

    1.用Hive对爬虫大作业产生的文本文件(或者英文词频统计下载的英文长篇小说)进行词频统计. (1)开启所有的服务,并创建文件夹wwc (2)查看目录下所有文件 (3)把hdfs文件系统中文件夹里的文 ...

  2. Spark综合大作业:RDD编程初级实践

    Spark综合大作业:RDD编程初级实践 实验配置:操作系统:Ubuntu16.04 | 环境:Spark版本:2.4.0 | 软件:Python版本:3.4.3. 文章目录 一.实验目的 二.实验平 ...

  3. 作业——08 爬虫综合大作业

    作业的要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3075 一.把爬取的内容保存取MySQL数据库 import pan ...

  4. 爬虫综合大作业(震惊!爬取了590位微信好友后竟然发现了)

    作业要求来自https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3159 可以用pandas读出之前保存的数据:见上次博客爬取全部的校园新闻 ...

  5. Python实训day13am【Python网络爬虫综合大作业PPT】

    Python实训-15天-博客汇总表   今天上午大家抓紧时间继续完成实训报告和PPT,有问题我会在群里跟大家说明, 暂时不用上线直播了. 实训结束后,我会在博客上发布网络爬虫综合大作业题目及解析.

  6. python大作业报告(爬虫 分析 可视化)_爬虫综合大作业——网易云音乐《Five Hours》爬虫可视化分析...

    爬虫综合大作业 选择一个热点或者你感兴趣的主题. 选择爬取的对象与范围. 了解爬取对象的限制与约束. 爬取相应内容. 做数据分析与文本分析. 形成一篇文章,有说明.技术要点.有数据.有数据分析图形化展 ...

  7. 基于eNSP中大型校园/企业网络规划与设计_ensp综合大作业(ensp综合实验)

    作者:BSXY_19计科_陈永跃 BSXY_信息学院 注:未经允许禁止转发任何内容 基于eNSP中大型校园/企业网络规划与设计_综合大作业(ensp综合实验) 前言及技术/资源下载说明( **未经允许 ...

  8. 大学计算机实践教程4.3综合作业,2020年下学期西安电子科技大学《基础实验》综合大作业.docx...

    学习中心/函授站 _ 姓 名 学 号 西安电子科技大学网络与继续教育学院 2020 学年下学期 <基础实验>期末考试试题 (综合大作业) 题号 一 总分 题分 100 得分 考试说明: 1 ...

  9. 网络与继续教育学院2022 学年上学期《基础实验》期末考试试题(综合大作业)

    一.逻辑门测试实验 与门测试原理图见图 1(a)所示,参考此图连接测试电路进行实验(可参阅[实验教程] 实验 4.2) . 1.在答题卡的 图 1(b)中给出了输入信号 A.B 之值,请在图 1(b) ...

  10. 作业十:爬虫综合大作业

    作业要求来源于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3075 一.把爬取的内容保存取MySQL数据库  1.爬取内容保存到数 ...

最新文章

  1. NCBI dbGap数据下载记录
  2. html写三角形,css3怎么写三角形?
  3. #pragma multi_compile_fwdbase会增加很多个shader variants
  4. 对象的多态(核心、困难、重点)
  5. 肺功能曲线图怎么看_【家装干货】有人说是鸡肋,有人说是功能升级,卫生间装双人洗漱台,你怎么看?...
  6. c#.net中创建带图标的ListBox
  7. hashmap冲突的解决方法以及原理分析
  8. CCF CSP202006-1 线性分类器
  9. 在windows下添加php的Imagick扩展
  10. 从你的全世界路过-人到难处需放胆
  11. java开发电脑分频器,FPGA设计——分频器(2.5分频器的程序)
  12. opencv图像处理学习(五十七)——峰值信噪比和结构相似性
  13. iPad被停用,安装iTunes提示安装包出错解决办法
  14. android usb 网卡驱动,安卓系统手机USB网络驱动
  15. windows10专业版镜像
  16. python——operator详解
  17. UDP进程terminated
  18. 华为云服务器如何使用
  19. 中国石油大学计算机评估排名,中国石油大学华东学科评估结果及排名情况怎样...
  20. react native 使用阿里字体图标库

热门文章

  1. Geos库学习之(二)——使用Geos库创建简单的几何对象
  2. 魔兽世界服务器 运行状态,服务器状态查询,魔兽怀旧服务器状态查询
  3. 微服务项目之电商4.0技术架构图
  4. 串口信号定义和接线方法-5针串口-9针串口-全功能串口
  5. 学习电商美工设计毕业以后可以干什么
  6. 自定义函数求两个整数的绝对差值及排序
  7. 词根词缀整理2019-3-20
  8. 80386 CPU资源
  9. docker装LibreELEC_如何在LibreELEC上安装Entware?
  10. 计算机机房运行环境条件要求,机房环境都有哪些要求