Hadoop 电影评分数据统计分析实验
Hadoop
- Hadoop分布式计算基础是什么?
- 1、存储
- 2、计算
- ==电影评分数据统计分析实验==
- ==【项目目标】==
- 1)掌握Hive的查询语句的使用
- 2)掌握R的可视化分析
- ==【实验原理】==
- 一、Hive支持多种不同长度的整型和浮点型数据类型,支持布尔类型,也支持无长度限制的字符串类型。
- 二、查询语句是所有数据库都包括的,并且很常用,所以需要熟练掌握。
- 三、R中的可视化非常漂亮,我们需要熟练使用。
- ==【实验环境】==
- CentOS6.5、JDK1.7、Hadoop2.4.1、Hive0.12.0、R-3.2.2
- ==【实验数据】==
- ==【实验步骤】==
- 一、项目准备阶段
- 1.1在任意目录下运行start-all.sh.启动hadoop。如图1所示。
- 1.2 输入jps检查是否启动成功。如图2所示。
- 1.3 进入hive下bin目录。如图3所示。
- 二、数据分析以及数据准备
- 2.1 统计电影的系统评分,并查看结果。如图4-5所示。
- 2.2 统计一个电影被观看的次数。如图6-7所示。
- 2.3 统计前10名观众看电影的次数。如图8-9所示。
- 三、R可视化
- 3.1 进入R命令行,并载入相关程序包,(程序包已安装完毕直接使用即可)。如图10-11所示。
- 3.2 画出系统电影评分的词云图。如图12-14所示。
- 第一次执行可能会像是这样,不要担心,别关闭浏览器,将程序的最后一句再执行一遍,就可以正常显示。
- 3.3 画出每个电影观看次数的词云图,同样将程序的最后一句执行两遍。如图15-16所示。
- 3.4 画出前10名观众看电影的次数的条形图。如图17-18所示。
Linux -> Hadoop -> HBase -> Spark
Hadoop分布式计算基础是什么?
1、存储
2、计算
电影评分数据统计分析实验
【项目目标】
1)掌握Hive的查询语句的使用
2)掌握R的可视化分析
【实验原理】
一、Hive支持多种不同长度的整型和浮点型数据类型,支持布尔类型,也支持无长度限制的字符串类型。
二、查询语句是所有数据库都包括的,并且很常用,所以需要熟练掌握。
三、R中的可视化非常漂亮,我们需要熟练使用。
【实验环境】
CentOS6.5、JDK1.7、Hadoop2.4.1、Hive0.12.0、R-3.2.2
【实验数据】
hot_movie
字段 | 定义 |
---|---|
m_id | (电影id) |
score | (系统评分) |
m_name | (电影名称) |
user_movie
字段 | 定义 |
---|---|
u_name | (用户昵称) |
m_id | (电影id) |
u_score | (用户评分) |
【实验步骤】
一、项目准备阶段
1.1在任意目录下运行start-all.sh.启动hadoop。如图1所示。
图1
1.2 输入jps检查是否启动成功。如图2所示。
图2
1.3 进入hive下bin目录。如图3所示。
图3
二、数据分析以及数据准备
2.1 统计电影的系统评分,并查看结果。如图4-5所示。
图4
图5
2.2 统计一个电影被观看的次数。如图6-7所示。
图6
图7
2.3 统计前10名观众看电影的次数。如图8-9所示。
图8
图9
三、R可视化
3.1 进入R命令行,并载入相关程序包,(程序包已安装完毕直接使用即可)。如图10-11所示。
图10
图11
3.2 画出系统电影评分的词云图。如图12-14所示。
图12
第一次执行可能会像是这样,不要担心,别关闭浏览器,将程序的最后一句再执行一遍,就可以正常显示。
图13
图14
3.3 画出每个电影观看次数的词云图,同样将程序的最后一句执行两遍。如图15-16所示。
图15
图16
3.4 画出前10名观众看电影的次数的条形图。如图17-18所示。
图17
图18
Hadoop 电影评分数据统计分析实验相关推荐
- 如何用python完成评分功能呢_利用python基于电影评分数据进行
本文以Movielens 1M数据集为例,利用Python,对电影的各项数据进行分析,分析对于不同的性别的电影评分,以及性别差异对评分的差异 加载python库以及数据: import pandas ...
- 大数据Spark电影评分数据分析
目录 1 数据 ETL 2 使用 SQL 分析 3 使用 DSL 分析 4 保存结果数据 5 案例完整代码 6 Shuffle 分区数目问题 1 数据 ETL 使用电影评分数据进行数据分析,分别使用D ...
- 豆瓣电影评分分析(数据分析)
本文主要通过对豆瓣电影爬取的数据进行的简要分析,观察得出各部分之间对应的关系影响. 一.数据抓取 我们要想进行数据分析,首先就要通过爬虫对分析对象网页的数据爬取保存,可以保存到数据库或者文件形式到本地 ...
- Spark综合练习——电影评分数据分析
我正在参加年度博客之星评选,请大家帮我投票打分,您的每一分都是对我的支持与鼓励. 2021年「博客之星」参赛博主:Maynor大数据 (感谢礼品.红包免费送!) https://bbs.csdn.ne ...
- 机器学习工程师 — Udacity 电影评分的 k 均值聚类
电影评分的 k 均值聚类 假设你是 Netflix 的一名数据分析师,你想要根据用户对不同电影的评分研究用户在电影品位上的相似和不同之处.了解这些评分对用户电影推荐系统有帮助吗?我们来研究下这方面的数 ...
- python协同过滤电影推荐_python实现基于用户的协同过滤算法(CF)——以电影评价数据(ml-100k)为例...
程序简介 项目以ml-100k电影评分数据集为输入,实现了基于用户的协同过滤算法,最后预测的MAE为0.84,因为经过优化,10万条评分数据运行时间不超过2分钟 协同过滤算法(CF)基于对用户历史行为 ...
- 案例分析-电影评分分析
电影评分分析 数据 原始数据展示 json格式说明 数据字段含义 需求 1.每个用户评分最高的10部电影评分信息(用户最喜爱的十部电影) 2.每个用户的uid和评分的平均值. 3.最大方(评分平均值高 ...
- 【机器学习】k-Means Clustering_电影评分与推荐实例
因本人刚开始写博客,学识经验有限,如有不正之处望读者指正,不胜感激:也望借此平台留下学习笔记以温故而知新. 电影评分的 k 均值聚类 假设你是 Netflix 的一名数据分析师,你想要根据用户对不同电 ...
- 实验报告:用协同过滤算法对电影评分,并使用RMSE算出预测误差
实验报告 一.实验目的 1.学习利用hadoop处理大数据. 2. 通过实验加强mapreduce编程能力. 3. 在掌握协同过滤算法基础上通过mapreduce实现. 二.实验内容 1.使用给定的数 ...
最新文章
- 技术专家预测未来25大颠覆性硬趋势
- Taurus.MVC 2.0 开源发布:WebAPI开发教程
- WCF后续之旅(10): 通过WCF Extension实现以对象池的方式创建Service Instance
- sublime快捷键整理
- IOS用CGContextRef画各种图形(文字、圆、直线、弧线、矩形、扇形、椭圆、三角形、圆角矩形、贝塞尔曲线、图片)...
- IO流--buffer
- Failed to load or instantiate TagLibraryValidator class: org.apache.taglibs.standard.tlv.JstlFmtTLV
- Java main 方法详解
- 包裹点云位姿估计_基于点云位姿平均的非合作目标三维重构
- php废物,PHP的垃圾回收机制以及大概实现
- java 夏令时 容器 问题,Java夏令时有关问题
- 中台之上(十三):探讨支持组装式开发的业务架构设计方法
- 干货 | 科研大牛们怎么读文献?
- 转DateTimePicker 控件的使用
- 3.7V转12V2A 15V2A 大功率升压芯片 拉杆音响专用升压芯片
- java 手机网站 cookie操作_Java中的cookie管理方案——完整易用的客户端cookie操作库...
- 拼接两条有重叠区域的核酸序列
- win10系统怎么做电影服务器,瞧瞧Win10是如何将电影推送到电视机上的
- html代码彼德西餐厅网页,彼德西餐厅设计解析 让你装修不再烦恼
- cad自动填写页码lisp,CAD图纸页码的自动生成-农夫也玩CAD