Hadoop 电影评分数据统计分析实验

Hadoop

Hadoop分布式计算基础是什么？
- 1、存储
- 2、计算
==电影评分数据统计分析实验==
- ==【项目目标】==
- - 1）掌握Hive的查询语句的使用
  - 2）掌握R的可视化分析
- ==【实验原理】==
- - 一、Hive支持多种不同长度的整型和浮点型数据类型，支持布尔类型，也支持无长度限制的字符串类型。
  - 二、查询语句是所有数据库都包括的，并且很常用，所以需要熟练掌握。
  - 三、R中的可视化非常漂亮,我们需要熟练使用。
- ==【实验环境】==
- - CentOS6.5、JDK1.7、Hadoop2.4.1、Hive0.12.0、R-3.2.2
- ==【实验数据】==
- ==【实验步骤】==
- - 一、项目准备阶段
  - - 1.1在任意目录下运行start-all.sh.启动hadoop。如图1所示。
    - 1.2 输入jps检查是否启动成功。如图2所示。
    - 1.3 进入hive下bin目录。如图3所示。
  - 二、数据分析以及数据准备
  - - 2.1 统计电影的系统评分,并查看结果。如图4-5所示。
    - 2.2 统计一个电影被观看的次数。如图6-7所示。
    - 2.3 统计前10名观众看电影的次数。如图8-9所示。
  - 三、R可视化
  - - 3.1 进入R命令行,并载入相关程序包,(程序包已安装完毕直接使用即可)。如图10-11所示。
    - 3.2 画出系统电影评分的词云图。如图12-14所示。
    - 第一次执行可能会像是这样,不要担心,别关闭浏览器,将程序的最后一句再执行一遍,就可以正常显示。
    - 3.3 画出每个电影观看次数的词云图,同样将程序的最后一句执行两遍。如图15-16所示。
    - 3.4 画出前10名观众看电影的次数的条形图。如图17-18所示。

Linux -> Hadoop -> HBase -> Spark

Hadoop分布式计算基础是什么？

1、存储

2、计算

电影评分数据统计分析实验

【项目目标】

1）掌握Hive的查询语句的使用

2）掌握R的可视化分析

【实验原理】

一、Hive支持多种不同长度的整型和浮点型数据类型，支持布尔类型，也支持无长度限制的字符串类型。

二、查询语句是所有数据库都包括的，并且很常用，所以需要熟练掌握。

三、R中的可视化非常漂亮,我们需要熟练使用。

【实验环境】

CentOS6.5、JDK1.7、Hadoop2.4.1、Hive0.12.0、R-3.2.2

【实验数据】

hot_movie

字段	定义
m_id	(电影id)
score	（系统评分）
m_name	(电影名称)

user_movie

字段	定义
u_name	(用户昵称)
m_id	（电影id）
u_score	(用户评分)

【实验步骤】

一、项目准备阶段

1.1在任意目录下运行start-all.sh.启动hadoop。如图1所示。

图1

1.2 输入jps检查是否启动成功。如图2所示。

图2

1.3 进入hive下bin目录。如图3所示。

图3

二、数据分析以及数据准备

2.1 统计电影的系统评分,并查看结果。如图4-5所示。

图4

图5

2.2 统计一个电影被观看的次数。如图6-7所示。

图6

图7

2.3 统计前10名观众看电影的次数。如图8-9所示。

图8

图9

三、R可视化

3.1 进入R命令行,并载入相关程序包,(程序包已安装完毕直接使用即可)。如图10-11所示。

图10

图11

3.2 画出系统电影评分的词云图。如图12-14所示。

图12

第一次执行可能会像是这样,不要担心,别关闭浏览器,将程序的最后一句再执行一遍,就可以正常显示。

图13

图14

3.3 画出每个电影观看次数的词云图,同样将程序的最后一句执行两遍。如图15-16所示。

图15

图16

3.4 画出前10名观众看电影的次数的条形图。如图17-18所示。

图17

图18

Hadoop 电影评分数据统计分析实验相关推荐

如何用python完成评分功能呢_利用python基于电影评分数据进行
本文以Movielens 1M数据集为例,利用Python,对电影的各项数据进行分析,分析对于不同的性别的电影评分,以及性别差异对评分的差异加载python库以及数据: import pandas ...
大数据Spark电影评分数据分析
目录 1 数据 ETL 2 使用 SQL 分析 3 使用 DSL 分析 4 保存结果数据 5 案例完整代码 6 Shuffle 分区数目问题 1 数据 ETL 使用电影评分数据进行数据分析,分别使用D ...
豆瓣电影评分分析（数据分析）
本文主要通过对豆瓣电影爬取的数据进行的简要分析,观察得出各部分之间对应的关系影响. 一.数据抓取我们要想进行数据分析,首先就要通过爬虫对分析对象网页的数据爬取保存,可以保存到数据库或者文件形式到本地 ...
Spark综合练习——电影评分数据分析
我正在参加年度博客之星评选,请大家帮我投票打分,您的每一分都是对我的支持与鼓励. 2021年「博客之星」参赛博主:Maynor大数据 (感谢礼品.红包免费送!) https://bbs.csdn.ne ...
机器学习工程师 — Udacity 电影评分的 k 均值聚类
电影评分的 k 均值聚类假设你是 Netflix 的一名数据分析师,你想要根据用户对不同电影的评分研究用户在电影品位上的相似和不同之处.了解这些评分对用户电影推荐系统有帮助吗?我们来研究下这方面的数 ...
python协同过滤电影推荐_python实现基于用户的协同过滤算法(CF)——以电影评价数据(ml-100k)为例...
程序简介项目以ml-100k电影评分数据集为输入,实现了基于用户的协同过滤算法,最后预测的MAE为0.84,因为经过优化,10万条评分数据运行时间不超过2分钟协同过滤算法(CF)基于对用户历史行为 ...
案例分析-电影评分分析
电影评分分析数据原始数据展示 json格式说明数据字段含义需求 1.每个用户评分最高的10部电影评分信息(用户最喜爱的十部电影) 2.每个用户的uid和评分的平均值. 3.最大方(评分平均值高 ...
【机器学习】k-Means Clustering_电影评分与推荐实例
因本人刚开始写博客,学识经验有限,如有不正之处望读者指正,不胜感激:也望借此平台留下学习笔记以温故而知新. 电影评分的 k 均值聚类假设你是 Netflix 的一名数据分析师,你想要根据用户对不同电 ...
实验报告：用协同过滤算法对电影评分，并使用RMSE算出预测误差
实验报告一.实验目的 1．学习利用hadoop处理大数据. 2. 通过实验加强mapreduce编程能力. 3. 在掌握协同过滤算法基础上通过mapreduce实现. 二.实验内容 1.使用给定的数 ...

Hadoop 电影评分数据统计分析实验

Hadoop

Hadoop分布式计算基础是什么？

1、存储

2、计算

电影评分数据统计分析实验

【项目目标】

1）掌握Hive的查询语句的使用

2）掌握R的可视化分析

【实验原理】

一、Hive支持多种不同长度的整型和浮点型数据类型，支持布尔类型，也支持无长度限制的字符串类型。

二、查询语句是所有数据库都包括的，并且很常用，所以需要熟练掌握。

三、R中的可视化非常漂亮,我们需要熟练使用。

【实验环境】

CentOS6.5、JDK1.7、Hadoop2.4.1、Hive0.12.0、R-3.2.2

【实验数据】

【实验步骤】

一、项目准备阶段

1.1在任意目录下运行start-all.sh.启动hadoop。如图1所示。

1.2 输入jps检查是否启动成功。如图2所示。

1.3 进入hive下bin目录。如图3所示。

二、数据分析以及数据准备

2.1 统计电影的系统评分,并查看结果。如图4-5所示。

2.2 统计一个电影被观看的次数。如图6-7所示。

2.3 统计前10名观众看电影的次数。如图8-9所示。

三、R可视化

3.1 进入R命令行,并载入相关程序包,(程序包已安装完毕直接使用即可)。如图10-11所示。

3.2 画出系统电影评分的词云图。如图12-14所示。

第一次执行可能会像是这样,不要担心,别关闭浏览器,将程序的最后一句再执行一遍,就可以正常显示。

3.3 画出每个电影观看次数的词云图,同样将程序的最后一句执行两遍。如图15-16所示。

3.4 画出前10名观众看电影的次数的条形图。如图17-18所示。

Hadoop 电影评分数据统计分析实验相关推荐

最新文章

热门文章