Hadoop大数据技术课程设计说明
文章目录
- Hadoop大数据技术课程设计说明
- 《Hadoop大数据技术》课程设计任务书
- 一、设计时间及地点
- 二、设计目的和要求
- 三、设计题目和要求
- 四、设计成果的编制
- 六、设计指导教师及分组情况
- 七、课程设计说明:
- 八、课程设计选题说明:
- 问题集
- 1. mapreduce的环境怎么搭建,以及Pom文件怎么写
- 总结
Hadoop大数据技术课程设计说明
《Hadoop大数据技术》课程设计任务书
一、设计时间及地点
1、时间:2021-2022年第一学期第15-16周。上午:8:00-11:30,下午:2:00-5:30。设计周的最后两天为验收时间,每个小组要求对课程设计任务提交设计报告。
2、地点:机房10#A301,机房10#A302,机房10#A303,以及安排的相关机房
二、设计目的和要求
(一)目的
本课程设计的目的是培养应用Hadoop大数据平台技术的相关工具以及思想解决实际问题的能力,掌握使用课程所学相关知识,提高调查研究、查阅技术资料以及编写技术文献的能力
(二)任务
在学好《Hadoop大数据技术》课程的基础上,搜集、研究和学习解决问题的相关知识,综合运用所学知识解决对应实际问题。
三、设计题目和要求
课程设计以小组方式进行,每个小组成员不超过3人,小组成员必须明确分工,保证组员的工作量符合课程考核要求。课程设计题目必须围绕Hadoop大数据平台相关技术选题,可以参考如下7类题目,但不局限于以下题目,可以采用自拟题目。
1 部署高可用的Hadoop平台
2 基于HDFS的应用开发
3 基于MapReduce的数据分析或应用开发
4 基于Hive的数据分析
5 基于Zookeeper的分布式协调服务
6 基于Flume的高可靠分布式日志采集系统
7 基于大数据的数据处理流程
参考选题:
1、部署高可用的Hadoop平台
功能描述:基于Ambari、CDM、TDM等工具完成多个节点的Hadoop平台搭建,并基于管理工具进行相关组件的运维与基本测试。
2、基于HDFS的应用开发
功能描述:搭建伪分布Hadoop集群,并基于HDFS实现相关应用开发。应用主题可以为实现网盘功能 ,包括上传,下载,删除等功能,也可自行拓展权限管理等功能。
3、基于MapReduce的数据分析
功能描述:搭建伪分布Hadoop集群,并基于MapReduce完成相关数据分析。可包含推荐系统、多维度的数据分析、PageRank算法等。
4、基于Hive的数据分析
功能描述:搭建伪分布Hadoop集群,并基于Hive完成相关数据而分析。功能点可包括内外部表的使用,分区分桶表的使用,多个维度的HQL分析等。
5、基于Zookeeper的分布式协调服务
功能描述: 搭建Zookeeper集群,并基于Zookeeper实现分布式锁或服务动态上下线的功能。
6、基于Flume的高可靠分布式日志采集系统
功能描述:基于Flume完成分布式的日志采集,并完成日志采集系统的高可靠,或是多路分流。
7、基于大数据的数据处理流程
功能描述:功能不限,结合大数据的数据处理流程,能正确的使用大数据的各个组件完成的大数据的数据处理分析过程。
四、设计成果的编制
(一)课程设计过程产生的相关代码、结果以及结果分析。
(二)编写课程设计报告,内容包括:
设计报告是对课程设计阶段所进行工作的总结,必须独立撰写一份课程设计报告,课程结束前需将报告打印好交指导老师评分。报告必须包括如下几个部分:
1.封面(见附一)
2.课题分析:对课题要解决的问题进行描述、开发语言与开发环境。
3.功能分析:对课题需要完成的功能模块进行分析。
4.实现技术:描述完成课题使用的方法,问题处理的具体实现过程。
5.设计实现:功能的具体实现,以及使用的工具的配置,脚本等。
6.结果与分析:展示设计实现功能、分析运行结果。
7.学习体会:包括设计、软件部署与编码调试过程中遇到的问题及解决办法;课程设计中的不足以及改进设想;设计中收获、体会等。
五、评分标准及成绩评定
1.平时纪律、预习及上机考核(占20%)
2.课程设计工作量、小组任务分工、系统完成情况(占50%)
3.设计报告(占30%)。
4.等级划分:优≥90分、良≥80分、中≥70分、及格≥60分和不及格<60分。
5.与他人雷同或抄写复制他人程序及报告者,成绩按不及格处理。
六、设计指导教师及分组情况
在整个设计过程中,参与设计的学生上机安排在实验机房,机房为10#A302,机房10#A303,或安排的相关机房,未安排在机房上机的时间,同学们选择进入图书馆进行课程设计,要遵守纪律,按时考勤。
上机安排如下:
第15周 周一到周五的 下午6-9节
七、课程设计说明:
本课程设计分为规定动作+自主设计动作两个部分:
规定动作:完成LSN实验教学平台中《hadoop大数据技术》课程的实验–19级hadoop大数据技术课程设计案例中的前2个案例。
自主设计动作:可参考如下案例,每个主题限选2组
1、部署高可用的Hadoop平台
功能描述:基于Ambari、CDM、TDM等工具完成多个节点的Hadoop平台搭建,并基于管理工具进行相关组件的运维与基本测试。
可参考: https://www.bilibili.com/video/BV1mJ411s7vP
2、基于HDFS的应用开发
功能描述:搭建伪分布Hadoop集群,并基于HDFS实现相关应用开发。应用主题可以为实现网盘功能 ,包括上传,下载,删除等功能,也可自行拓展权限管理等功能。
可参考:
《hadoop大数据技术》课程的实验–19级hadoop大数据技术课程设计案例中的第3个案例
https://blog.csdn.net/weixin_41983824/article/details/84586194
3、基于MapReduce的数据分析(本主题依据数据集判断是否为同一主题)
功能描述:搭建伪分布Hadoop集群,并基于MapReduce完成相关数据分析。可包含推荐系统、多维度的数据分析、PageRank算法等。
可参考:
https://gitee.com/somefusion/LogAnalyzeHelper
https://www.cnblogs.com/cairsha/p/10033947.html
https://www.cnblogs.com/MoooJL/p/13583325.html
https://www.cnblogs.com/zimo-jing/p/8835667.html
4、基于Hive的数据分析
功能描述:搭建伪分布Hadoop集群,并基于Hive完成相关数据而分析。功能点可包括内外部表的使用,分区分桶表的使用,多个维度的HQL分析等。
参考:
https://gitee.com/master_empty/hive/tree/master
https://blog.csdn.net/ysy_1_2/article/details/106466263
5、基于Zookeeper的分布式协调服务
功能描述: 搭建Zookeeper集群,并基于Zookeeper实现分布式锁或服务动态上下线的功能。
参考:
https://blog.csdn.net/liyiming2017/category_8119571.html
6、基于Flume的高可靠分布式日志采集系统
功能描述:基于Flume完成分布式的日志采集,并完成日志采集系统的高可靠,或是多路分流。
7、基于大数据的数据处理流程
功能描述:功能不限,结合大数据的数据处理流程,能正确的使用大数据的各个组件完成的大数据的数据处理分析过程。
八、课程设计选题说明:
1.选题过程中,要注意主题的明确
可以修改为:
基于MapReduce实现图书馆数据的分析
基于MapReduce实现天气数据的分析
基于MapReduce实现天气推荐系统
等
2.工作量体现
每个人基于LSN完成规定动作
每天要记录当天完成的工作任务,体现在课程设计中
每位同学的工作量要饱满
问题集
1. mapreduce的环境怎么搭建,以及Pom文件怎么写
答:先安装好hadoop环境,并开启hdfs,yarn,通过jps确定5个服务都在
这时,就可以测试执行mapreduce程序了
# 基于hadoop的提供的MR程序,进行词频统计的案例
hadoop jar /app/hadoop/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar wordcount /demoinput /output
# /demoinput是输入文件的路径
# /output 是输出文件的路径
# 基于hadoop的提供的MR程序,进行蒙特卡洛就π的案例
hadoop jar /app/hadoop/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar pi 5 5
经过上面的例子,我们会发现,执行MR程序,只需要编写一个MR代码,然后通过hadoop jar 去执行就好了。
那么怎么搭建Mapreduce工程呢,流程分为,创建maven工程,添加pom依赖,编写Mapper,Reducer,主方法类,然后打包后,上传到hadoop 集群,再通过hadoop jar XXX,即可执行
具体步骤较为琐碎,可以参考lsn中实验
实验3 分析和编写WordCount程序
http://172.16.16.164:8000/courses/10/assignments/62
总结
同学们有问题的话,可以留言,看到会及时回复
Hadoop大数据技术课程设计说明相关推荐
- Hadoop大数据技术复习资料
Hadoop大数据技术复习资料 钟兴宇 1.选择题15空,共30分. Hadoop以HDFS(Hadoop Distributed File System,Hadoop 分布式文件系统)和MapR ...
- 猿创征文|Hadoop大数据技术
Hadoop大数据技术 Hadoop背景 Hadoop生态圈 Hadoop模式 HDFS 概述 优点 缺点 基本组成 NameNode Secondary NameNode DataNode YARN ...
- 1.初始Hadoop大数据技术
1.1 大数据技术概要 1.1.1 大数据产生的背景 2001年后,互联网迅速发展,数据量成倍递增.进入2012年,大数据(big data)一词越来越多地被提及,人们用它来描述和定义信息爆炸时代产生 ...
- Hadoop大数据技术栈详解
一.大数据概述 1.大数据简介 大数据(Big Data)∶指无法在一定时间范围内用常规软件工具进行捕捉.管理和处理的数据集合,是需要新处理模式才能具有更强的决策力.洞察发现力和流程优化能力的海量.高 ...
- 大数据技术原理与应用课程建设经验分享
大数据技术原理与应用课程 建设经验分享 林子雨 厦门大学信息科学与技术学院, 福建 厦门 361005 摘要:大数据专业人才的培养是世界各国新一轮科技较量的基础,高等院校承担着大数据人才培养的重任 ...
- 大数据技术之Hadoop(十一)——网站流量日志数据分析系统
目录 素材: 一.模块开发--数据预处理 1.分析预处理的数据 2.实现数据的预处理 (1)创建Maven项目,添加相关依赖 (2)创建JavaBean对象,封装日志记录 (3)创建MapReduce ...
- 大数据技术是什么专业?前景如何
大数据技术是什么专业?大数据浪潮下,大数据技术是信息领域的革命,更是在全球领域内加速企业创新,社会变革的技术.大数据能给企业创造商业价值.使用大数据技术解决企业难题难题,灵活.快速.高效地响应瞬息万变 ...
- Hadoop大数据零基础高端实战培训
Hadoop大数据零基础高端实战培训系列配文本挖掘项目(七大亮点.十大目标) 课程讲师:迪伦 课程分类:大数据 适合人群:初级 课时数量:330课时 用到技术:部署Hadoop集群 涉及项目:京东商城 ...
- 基于大数据技术的手机用户画像与征信研究
内容提要:手机用户画像是电信运营商实现"数据驱动业务与运营"的重要举措.首先,介绍了手机用户画像过程中对个人隐私保护的方法,然后分析手机用户画像的数据来源与大数据实现技术,最后,通 ...
- Hadoop十岁!Doug Cutting成长史+他眼中大数据技术的未来
上次见到(膜拜)Hadoop之父Doug Cutting是在2年前,2014中国大数据技术大会上.今年Hadoop10岁,刚看到他的Hadoop十周年贺词,感觉时间飞逝.最近CSDN和InfoQ都在制 ...
最新文章
- Nginx日志格式设置
- java list键值_java基础之对List,Map,Set等集合键值对的简单认识
- 内存文件系统——sysfs
- 基于Base64的图片转字符串-java和C#互通问题
- 正在使用.NET Framework 2.0 Beta 2的开发者要注意了!
- JQuery EasyUI 动态隐藏
- concurrent: ThreadPoolExecutor 用法
- Tableau数据分析:NC Retail Order Data(英)Data Science Program Lab#1(GTI)
- axios 注册拦截器 cdn引用_PicGo+jsDelivr+GitHub搭建免费cdn加速的图床
- MyBatis的总结(上)
- ICLR最佳论文“彩票假设”:如何通过彩票假设构建轻量化模型(上)
- 透过 ASP.NET 和数据库读写图片
- 关于switch软破“由于发生错误,软件已关闭”无法升级主机系统等问题
- 【机器学习】 - 决策树(西瓜数据集)
- 微信小程序网络请求服务器php接口获取数据库数据信息
- uc android flash插件,UC7.3 Android手机上网新体验 支持Flash游戏
- HTML5期末大作业dreamweaver作业静态HTML网页设计——甜点店(11页) 学生网页设计作品
- 【FXP】连接站点并上传包文件:
- Ubuntu 16.04中cartographer安装过程中的troubleshooting,以及demo的实现
- 儿童成长曲线 (WHO标准)
热门文章
- 数控系统市场下行压力逐渐增大
- 手机麦克风结构原理图_一文看懂咪头的工作原理及结构(驻极体话筒) - 全文...
- web应用程序安全性测试_立即提高Web应用安全性的6种方法
- phpstudy探针文件
- 阻抗匹配(一):信号发生器
- 计算机数值方法第三版答案百度云,数值计算方法课后习题答案(李庆扬等)..doc...
- xapofx1_5.dll怎么安装
- 计算机软件丛书,开天辟地学电脑丛书——办公软件篇
- ADAS/AD域控制器及芯片平台分析
- acs510使用技巧_ABBACS510系列变频器通用接线图和参数表【借鉴实操】