大数据周会-本周学习内容总结07
目录
01【hadoop】
1.1【编写集群分发脚本xsync】
1.2【集群部署规划】
1.3【Hadoop集群启停脚本】
02【HDFS】
2.1【HDFS的API操作】
03【MapReduce】
3.1【P077- WordCount案例】
3.2【P097-自定义分区案例】
历史总结
01【hadoop】
1.1【编写集群分发脚本xsync】
1)scp(secure copy)安全拷贝
scp可以实现服务器与服务器之间的数据拷贝(from server1 to server2)。
2)rsync远程同步工具
rsync主要用于备份和镜像。具有速度快、避免复制相同内容和支持符号链接的优点。
3)xsync集群分发脚本
#!/bin/bash#1. 判断参数个数
if [ $# -lt 1 ]
thenecho Not Enough Arguement!exit;
fi#2. 遍历集群所有机器
for host in hadoop102 hadoop103 hadoop104
doecho ==================== $host ====================#3. 遍历所有目录,挨个发送for file in $@do#4. 判断文件是否存在if [ -e $file ]then#5. 获取父目录pdir=$(cd -P $(dirname $file); pwd)#6. 获取当前文件的名称fname=$(basename $file)ssh $host "mkdir -p $pdir"rsync -av $pdir/$fname $host:$pdirelseecho $file does not exists!fidone
done
[atguigu@hadoop102 .ssh]$ ssh-copy-id hadoop102
[atguigu@hadoop102 .ssh]$ ssh-copy-id hadoop103
[atguigu@hadoop102 .ssh]$ ssh-copy-id hadoop104
1.2【集群部署规划】
注意:
- NameNode和SecondaryNameNode不要安装在同一台服务器
- ResourceManager也很消耗内存,不要和NameNode、SecondaryNameNode配置在同一台机器上。
hadoop102
hadoop103
hadoop104
HDFS
NameNode
DataNode
DataNode
SecondaryNameNode
DataNode
YARN
NodeManager
ResourceManager
NodeManager
NodeManager
core-site.xml、hdfs-site.xml、yarn-site.xml、mapred-site.xml等四个配置文件存放在$HADOOP_HOME/etc/hadoop这个路径上,用户可以根据项目需求重新进行修改配置。
1.3【Hadoop集群启停脚本】
1)Hadoop集群启停脚本(包含HDFS,Yarn,Historyserver):myhadoop.sh
#!/bin/bashif [ $# -lt 1 ]
thenecho "No Args Input..."exit ;
ficase $1 in
"start")echo " =================== 启动 hadoop集群 ==================="echo " --------------- 启动 hdfs ---------------"ssh hadoop102 "/opt/module/hadoop-3.1.3/sbin/start-dfs.sh"echo " --------------- 启动 yarn ---------------"ssh hadoop103 "/opt/module/hadoop-3.1.3/sbin/start-yarn.sh"echo " --------------- 启动 historyserver ---------------"ssh hadoop102 "/opt/module/hadoop-3.1.3/bin/mapred --daemon start historyserver"
;;
"stop")echo " =================== 关闭 hadoop集群 ==================="echo " --------------- 关闭 historyserver ---------------"ssh hadoop102 "/opt/module/hadoop-3.1.3/bin/mapred --daemon stop historyserver"echo " --------------- 关闭 yarn ---------------"ssh hadoop103 "/opt/module/hadoop-3.1.3/sbin/stop-yarn.sh"echo " --------------- 关闭 hdfs ---------------"ssh hadoop102 "/opt/module/hadoop-3.1.3/sbin/stop-dfs.sh"
;;
*)echo "Input Args Error..."
;;
esac
2)查看三台服务器Java进程脚本:jpsall
#!/bin/bashfor host in hadoop102 hadoop103 hadoop104
doecho =============== $host ===============ssh $host jps
done
02【HDFS】
2.1【HDFS的API操作】
练习内容:
- HDFS文件上传(测试参数优先级)
- HDFS文件下载
- HDFS文件更名和移动
- HDFS删除文件和目录
- HDFS文件详情查看
- HDFS文件和文件夹判断
03【MapReduce】
3.1【P077- WordCount案例】
3.2【P097-自定义分区案例】
历史总结
高考项目 医疗项目
存储2泽卢、调度lnz、计算2MySQL同步到es集群,动态更新、数据同步、集群
MySQL和es集群同步数据库大数据平台组件 本地搭建
spark
scala
面试手册 八股文采集 maxwell
datax
flume
zookepeer
hdfs hadoop三大组件之一
hive hbase
hudidoris
mr spark flink
青城在线
800 1800 2000
no搭框架,这是运维搞的事情。
研究具体应用和底层原理代码。
练手:简易rpc框架。原方案:flume采集日志文件传到kafka,尚硅谷数仓项目。
现方案:Linux虚拟机rocketMQ监控logstash数据日志。
logstash -f /opt/module/logstash-8.5.1/config/test/mysql01.conf
logstash -f ../config/gaokao/mysql.conf
详细列出所学内容,xxx框架。
doris、flink、spark streaming
jieba分词器
汇报人:xxx、项目组:大数据
linux集成es
canal
P25 25、基于canal数据同步的介绍 01:46
https://www.bilibili.com/video/BV1Jq4y1w7Bc?p=25https://help.aliyun.com/document_detail/307064.html
https://github.com/alibaba/canal
https://github.com/alibaba/canal/wiki/Canal-Kafka-RocketMQ-QuickStart调研
技术方案:高考大数据的存储与计算方案
高考大数据资产2、数据存储
elk接入实时日志
1、大学专业等导入es
2、mysql-es 全量-增量,更新机制并实现
3、数据检索1、数据治理
1.1、招生计划治理,spark实现,存es
1.2、高考数据实时日志计算统计指标梳理并统计kafka日志、kafka可视化!
极光:https://www.jiguang.cn/
https://cgsss.com/
大数据周会-本周学习内容总结07相关推荐
- 大数据周会-本周学习内容总结0102
目录 01.ElasticSearch-学习总结 02.Springboot+ElasticSearch构建博客检索系统 01.将MySQL数据同步到ES中 02.SpringBoot集成ES 03. ...
- 大数据周会-本周学习内容总结011
开会时间:2023.04.23 15:00 线下会议 目录 01[spark] 02[es同步mysql] 03[下周任务] 01[spark] 尚硅谷大数据技术Spark教程-笔记01[Spark( ...
- 大数据周会-本周学习内容总结08
目录 01[Hadoop] 1.1[MapReduce] 1.2[Yarn] 1.3[让用户自定义脚本在任意地方都可执行-配置方法] 02[下月学习内容] 老师指导 01[Hadoop] 尚硅谷大数据 ...
- 大数据周会-本周学习内容总结09
开会时间:2023.04.09 20:00 腾讯会议 目录 01[scala] 1.1[已学内容] 1.2[待学内容] 02[Saprk] 会议记录 01[scala] 1.1[已学内容] 尚硅谷大数 ...
- 大数据周会-本周学习内容总结014
开会时间:2023.05.21 15:00 线下会议 目录 01[fhzn项目] 02[Apache NiFi] 03[数据采集-调研] 3.1[数据采集,流程图.架构图.使用场景] 3.2[常见的数 ...
- 大数据周会-本周学习内容总结04
目录 1.mysql数据同步到es 1.1.通过logstash同步数据 1.2.canal数据同步 1.3.通过logstash将本地文件导入es 2.git 1.mysql数据同步到es 1.1. ...
- 大数据周会-本周学习内容总结015
开会时间:2023.05.28 15:30 线下会议 目录 01[fhzny项目] 02[Spark] 03[调研-数仓构建] 3.1[数仓构建,流程图.架构图.使用场景] 场景选择 组件设计 构建流 ...
- 大数据周会-本周学习内容总结05
目录 00[陈师兄字节大厂经验分享] 01[MySQL数据同步ES] 1.1[Linux MySQL数据库数据同步Windows ES] 1.1.1[自动创建分片数为0的索引] 1.1.2[数据导入时 ...
- 大数据周会-本周学习内容总结010
开会时间:2023.04.16 19:00 线下会议 目录 01[scala] 02[zookeeper] 03[spark] 04[专利] 会议记录 01[scala] 尚硅谷大数据技术Scala教 ...
最新文章
- 程序员会懂的冷笑话:各大编程语言的内心独白
- Realm的简单使用
- 【BZOJ 3729】3729: Gty的游戏 (Splay维护dfs序+博弈)
- ARTS打卡计划第六周
- Angular目录结构分析以及app.module.ts详解
- 小米4刷centos_给大家推荐两款小米的产品
- 编写一个程序实现方法的覆盖java_编写Java程序代码必须先声明一个____,然后在其中编写实现需求的业务代码。...
- python中列表 字典 元祖 enumerate()函数
- 美的集团2022全球招聘正式启动
- 12月22日 冬至 隋文帝赏柳上上签
- Redis(一)入门
- VUE 文字转语音播放
- Java在线打开word文档实现指定用户只能编辑指定区域
- vtuber面部捕捉工具_做一名VTuber 虚拟UP主需要准备哪些?
- 股票中什么是总负债同比增长率,有什么作用
- CentOS6.6下配置KMS自动激活服务器
- 18位身份证号码最后一位校验
- 不可思议的大公司组织结构图
- 从上家公司离开一个多月,今天前同事竟跟我说,公司要求他们删除离职人员微信好友,不删就开除!...
- win10如何更改mysql的密码
热门文章
- [转] 校园职场』 [公告]兰州城市学院学生因自习室“抢座位”引发血案,造成7人伤亡(转载)
- 44444444444444
- 分享一个自动刷抖音的代码
- 用计算机弹奏七月上,七月上歌词背后的故事 七月上背景故事介绍
- 双向联想记忆网络的原理与python简单实现
- 微信支付宝H5收款码扫码转账个人通道仿原生接口带备注可回调成功率9成以上
- 计算机英语构词法,【计算机专业论文】计算机专业英语的构词方法(共2969字)
- 柯尼卡美能达C364e安装步骤(全)-柯美复印机如何装机-柯美C364e驱动安装-柯美复印机安装扫描
- 一款非常好用的Markdown文档编辑器Typora
- oracle direct-load,sqlldr direct方式导致索引失效实测