资源下载地址:https://download.csdn.net/download/sheziqiong/86954452
资源下载地址:https://download.csdn.net/download/sheziqiong/86954452
目录
1 开发背景 3
1.1开发背景与意义 4
1.2 开发环境与工具 4
2 可行性分析 7
2.1 可行性分析 8
2.2 需求可行性 8
2.3 技术可行性 8
2.4 操作可行性 8
2.5经济可行性 9
3 系统总体设计 10
3.1 总体设计方案 10
3.2 基础数据准备 10
3.3 环境准备 13
3.4 软件准备 13
4 系统详细设计 13
4.1 安装前准备 14
4.2 Hadoop集群安装 15
5 创建表结构 25
5.1 分析需求 26
5.2 创建数据库 26
5.3 创建t_user表 27
5.4 创建t_movie表 27
5.5 创建t_rating表 28
5.6 导入数据 28
6 分析各年评分最高的电影类型 29
6.1 分析思路 29
6.2 完整SQL 30
2 可行性分析
2.1 可行性分析
本部分主要阐述了从技术角度,需求角度,经济角度和操作角度论证项目的可行性。需求角度是从项目的需求方面谈了做日志分析的可行性,技术角度主要考虑Hadoop技术对处理日志分析是否合适,操作性主要考虑搭建Hadoop集群和运行日志分析操作上是否简单可靠,经济性主要考虑是实现需求的经济价值,是否在经济应允的范围等。

2.2 需求可行性
Hadoop是开源的大数据解决方案,有本地模式、伪分布式模式、完全分布式模式。这里基于要处理大量的日志数据和更加能模拟和贴近生产的真是环境,这里选择完全分布式的搭建模式。该模式有较好的数据吞吐率和数据分布式备份存储的特性,能较好的满足实验的需要。
Hadoop天生的大数据处理专家,基于map,reduce的处理能力,能并行快速的处理大量数据,可以很好的做日志的分析。
2.3 技术可行性
从技术角度来看,Hadoop是用java来开发的只需要配置好java环境,没有其他额外的要求。Hadoop是Apache下的开源项目,官方的文档和demo都比较全面,可以按照文档来一步步操作。Hadoop是运行在linux环境下的,这里可以选用免费的centos发行版,只需要有合适的ssh工具,就能做到hadoop在linux环境下的安装,配置等。Hadoop还提供了web-ui的管理界面,方便对Hadoop集群做监控,管理。

2.4 操作可行性
Hadoop内置的分布式文件系统hdfs,可以做到文件的备份,只需简单的配置备份因子参数,就能实现文件不丢失。Mapreduce程序是用java语言开发的,只需本地开发好达成jar包提交到yarn集群上就可以执行,提交的任务运行状态可以在ResourceManager的web-ui上查看,任务执行过程中产生的日志文件可以用于辅助查看任务的运行情况和分析错误。Hdfs的文件浏览web-ui也能方便的查看准备的数据和校对查看生成的数据。

2.5经济可行性
Hadoop集群对单机的配置要求不高,可以在本机或云端搭建一台虚拟机,然后在虚拟机上创建一些hadoop集群的节点。hadoop是基于zookeeper做高可用的,一般机器是奇数台即可,可以尽量减少机器的浪费,同时达到最高的可用性。本文转载自http://www.biyezuopin.vip/onews.asp?id=13650我们只需要准备个人电脑一台(内存/硬盘尽量大一点),需要的虚拟机软件,Hadoop的安装包,ssh的工具,开源的jdk等免费软件即可在个人电脑上搭起一套完全分布式的Hadoop集群。

3 系统总体设计
3.1 总体设计方案
本系统主要设计完成两件工作,一是搭建分布式的hadoop的集群环境,二是基于分布式的集群环境做日志分析。
环境搭建部分:先安装虚拟机,在虚拟机上安装centos系统,在一台机器上安装好hadoop的配置,另外两台机器直接clone,简化安装的步骤。三台机器准备好后,配置ssh的免密访问,将新加入的两台机器加入到slave里。确保环境搭建好后,做日志清洗任务,验证日志分析的准确性。

需要创建电影数据库movie,在movie数据库中创建3张表,t_user,t_movie,t_rating
t_user:userid bigint,sex string,age int,occupation string,zipcode string
t_movie:movieid bigint,moviename string,movietype string
t_rating:userid bigint,movieid bigint,rate double,times string
最初数据是以::进行切分的,所以需要使用能解析多字节分隔符的Serde即可
使用RegexSerde
需要两个参数:
input.regex = "(.*):: (.*):: (.*)"
output.format.string = "%1$s %2$s %3$s"















资源下载地址:https://download.csdn.net/download/sheziqiong/86954452
资源下载地址:https://download.csdn.net/download/sheziqiong/86954452

基于hadoop平台hive数据库处理电影数据相关推荐

  1. 基于hadoop和echarts的教育大数据可视化系统 毕设完整的代码+数据集

    一.摘 要 在线教育平台现在是教育体系的重要组成部分,在当前大数据时代的背景下,促进教育机构建立统一平台.统一资源管理的数字化教学系统.如何评估系统平台的健康程度.学生的学习体验和在线课程的质量对于课 ...

  2. 【Hadoop】基于Hadoop/Hbase/Hive的小型离线服务器日志分析应用

    ##1.项目简介 本项目主要设计一个基于Hadoop的日志分析系统.其中的日志数据主要来自于某系统开发测试期间的服务器访问日志数据(Tomcat),通过对这些日志数据利用正则表达式等技术手段进行处理, ...

  3. 基于Matlab平台的BP神经网络进行数据拟合

    基于Matlab平台的BP神经网络进行数据拟合 上次讨论了基于Hopfield神经网络的数字识别,BP(Back Propagation)神经网络也可以进行相关的数字识别如手写数字识别等,由于BP神经 ...

  4. java 解析 cim e 模型 架包,基于JAVA平台的CIM模型潮流数据转换方法及装置与流程...

    本发明涉及电力系统公共信息模型领域,尤其涉及一种基于JAVA平台的CIM模型潮流数据转换方法及装置. 背景技术: CIM采用开关/节点模型描述电力系统网络,而在计算电网潮流时应用功能是母线/支路模型. ...

  5. 开源物联网平台ThingsBoard数据库40张数据表设计一览

    开源物联网平台ThingsBoard数据库40张数据表设计一览 1 ThingsBoard数据库总览 1.1 数据库信息 1.1.1 数据库名称 1.1.3 数据库用户名及密码 1.1.3 数据库表 ...

  6. 跨Hadoop平台Hive表export和import迁移

    场景:两个Hadoop平台集群之间Hive表迁移. 思路:Hive表元数据和文件数据export到HDFS文件,通过Distcp将HDFS迁移到另一个集群的HDFS文件,再通过import在新Hive ...

  7. Sqoop MySQL hive 数据库导入导出数据

    1.导入(从mysql导入hive) 场景:从一个mysql数据库的表中导入数据到hive表中 sqoop import \ --connect "jdbc:mysql://ip:3306/ ...

  8. 大数据系列6:HBase – 基于Hadoop的分布式数据库

    2019独角兽企业重金招聘Python工程师标准>>> wget http://mirrors.cnnic.cn/apache/zookeeper/zookeeper-3.4.5/z ...

  9. 基于Hadoop+Java的地区旅游大数据可视化管理(IDEA+Zookeeper+Hive+HBase+Echarts)

    目录 地区旅游大数据可视化管理 1 最终数据可视化样式 1 绪论 3 研究背景 3 研究现状 4 开发环境 4 数据抓取和清洗 5 相关技术 5 Jsoup 5 数据抓取 5 利用Jsoup抓取旅游网 ...

最新文章

  1. 深入 理解 Statement 和 PreparedStatement
  2. Java 基础知识 练习
  3. Android Json 解析
  4. 轻量级Web应用程序框架:PrimeFaces(JSF)+ Guice + MyBatis(第2部分)
  5. PopTheBubble —测量媒体偏差的产品创意
  6. python存文件代码_Python文件读写保存操作的示例代码
  7. magento 输出关联产品
  8. Shiro Shiro Web Support and EnvironmentLoaderListener
  9. 任务寄存器TR:GDT、LDT、IDT、TR、TSS之间的关系
  10. easyui的tree获取父节点_通过DOM API 查找节点
  11. 正则表达式——常用量词
  12. ARM64体系结构编程与实践:算术与移位指令
  13. 震撼【超高细节地球】GIS相关引擎,速看。。。
  14. ## STM32——闪烁灯程序
  15. 小学计算机室培训心得,小学计算机培训心得体会范文
  16. 项目启动报错 Error running ‘xxxApplication‘;Command line is too long,Shoerten command line for........
  17. springboot集成graphql(一)
  18. [web效果实现-3] 拼音排序通讯录实现
  19. springboot自动配置原理
  20. 腾讯视频cKey9.1的生成分析和实现

热门文章

  1. 推荐一个软件分享资源站
  2. 365天挑战LeetCode1000题——Day 116 第315场周赛 「中国银联 力扣」
  3. ORA-01012: not logged on处理
  4. 成绩统计(编写一个使用EL的jsp程序)
  5. android中JNI知识(很全)
  6. HCIE课程笔记18-局域网二层技术
  7. 中国医科大学2021年12月《五官科护理学》作业考核试题
  8. 2021/09/06 Terraform 从入门到精通(二)
  9. html5支持.9.png,javascript-当Alpha透明时,HTML5 Canvas转换为PNG会将所有通道归零
  10. 关于动态抽样(Dynamic Sampling)