目录

01【hadoop】

1.1【编写集群分发脚本xsync】

1.2【集群部署规划】

1.3【Hadoop集群启停脚本】

02【HDFS】

2.1【HDFS的API操作】

03【MapReduce】

3.1【P077- WordCount案例】

3.2【P097-自定义分区案例】

历史总结


01【hadoop】

1.1【编写集群分发脚本xsync】

1)scp(secure copy)安全拷贝

scp可以实现服务器与服务器之间的数据拷贝(from server1 to server2)。

2)rsync远程同步工具

rsync主要用于备份和镜像。具有速度快、避免复制相同内容和支持符号链接的优点。

3)xsync集群分发脚本

#!/bin/bash#1. 判断参数个数
if [ $# -lt 1 ]
thenecho Not Enough Arguement!exit;
fi#2. 遍历集群所有机器
for host in hadoop102 hadoop103 hadoop104
doecho ====================  $host  ====================#3. 遍历所有目录,挨个发送for file in $@do#4. 判断文件是否存在if [ -e $file ]then#5. 获取父目录pdir=$(cd -P $(dirname $file); pwd)#6. 获取当前文件的名称fname=$(basename $file)ssh $host "mkdir -p $pdir"rsync -av $pdir/$fname $host:$pdirelseecho $file does not exists!fidone
done

[atguigu@hadoop102 .ssh]$ ssh-copy-id hadoop102

[atguigu@hadoop102 .ssh]$ ssh-copy-id hadoop103

[atguigu@hadoop102 .ssh]$ ssh-copy-id hadoop104

1.2【集群部署规划】

注意:

  • NameNode和SecondaryNameNode不要安装在同一台服务器
  • ResourceManager也很消耗内存,不要和NameNode、SecondaryNameNode配置在同一台机器上。

hadoop102

hadoop103

hadoop104

HDFS

NameNode

DataNode

DataNode

SecondaryNameNode

DataNode

YARN

NodeManager

ResourceManager

NodeManager

NodeManager

core-site.xml、hdfs-site.xml、yarn-site.xml、mapred-site.xml四个配置文件存放在$HADOOP_HOME/etc/hadoop这个路径上,用户可以根据项目需求重新进行修改配置。

1.3【Hadoop集群启停脚本】

1)Hadoop集群启停脚本(包含HDFS,Yarn,Historyserver):myhadoop.sh

#!/bin/bashif [ $# -lt 1 ]
thenecho "No Args Input..."exit ;
ficase $1 in
"start")echo " =================== 启动 hadoop集群 ==================="echo " --------------- 启动 hdfs ---------------"ssh hadoop102 "/opt/module/hadoop-3.1.3/sbin/start-dfs.sh"echo " --------------- 启动 yarn ---------------"ssh hadoop103 "/opt/module/hadoop-3.1.3/sbin/start-yarn.sh"echo " --------------- 启动 historyserver ---------------"ssh hadoop102 "/opt/module/hadoop-3.1.3/bin/mapred --daemon start historyserver"
;;
"stop")echo " =================== 关闭 hadoop集群 ==================="echo " --------------- 关闭 historyserver ---------------"ssh hadoop102 "/opt/module/hadoop-3.1.3/bin/mapred --daemon stop historyserver"echo " --------------- 关闭 yarn ---------------"ssh hadoop103 "/opt/module/hadoop-3.1.3/sbin/stop-yarn.sh"echo " --------------- 关闭 hdfs ---------------"ssh hadoop102 "/opt/module/hadoop-3.1.3/sbin/stop-dfs.sh"
;;
*)echo "Input Args Error..."
;;
esac

2)查看三台服务器Java进程脚本:jpsall

#!/bin/bashfor host in hadoop102 hadoop103 hadoop104
doecho =============== $host ===============ssh $host jps
done

02【HDFS】

2.1【HDFS的API操作】

练习内容:

  1. HDFS文件上传(测试参数优先级)
  2. HDFS文件下载
  3. HDFS文件更名和移动
  4. HDFS删除文件和目录
  5. HDFS文件详情查看
  6. HDFS文件和文件夹判断

03【MapReduce】

3.1【P077- WordCount案例】

3.2【P097-自定义分区案例】

历史总结

高考项目 医疗项目
存储2泽卢、调度lnz、计算2

MySQL同步到es集群,动态更新、数据同步、集群
MySQL和es集群同步数据库

大数据平台组件 本地搭建

spark


scala        
面试手册  八股文

采集   maxwell
datax
flume
zookepeer 
hdfs  hadoop三大组件之一
hive  hbase 
hudi

doris

mr spark  flink

青城在线

800  1800  2000


no搭框架,这是运维搞的事情。

研究具体应用和底层原理代码。
练手:简易rpc框架。

原方案:flume采集日志文件传到kafka,尚硅谷数仓项目。

现方案:Linux虚拟机rocketMQ监控logstash数据日志。


logstash -f /opt/module/logstash-8.5.1/config/test/mysql01.conf

logstash -f ../config/gaokao/mysql.conf


详细列出所学内容,xxx框架。

doris、flink、spark streaming

jieba分词器

汇报人:xxx、项目组:大数据

linux集成es

canal

P25 25、基于canal数据同步的介绍 01:46
https://www.bilibili.com/video/BV1Jq4y1w7Bc?p=25

https://help.aliyun.com/document_detail/307064.html
https://github.com/alibaba/canal
https://github.com/alibaba/canal/wiki/Canal-Kafka-RocketMQ-QuickStart

调研
技术方案:高考大数据的存储与计算方案
高考大数据资产

2、数据存储
elk接入实时日志
1、大学专业等导入es
2、mysql-es 全量-增量,更新机制并实现
3、数据检索

1、数据治理
1.1、招生计划治理,spark实现,存es
1.2、高考数据实时日志计算统计指标梳理并统计

kafka日志、kafka可视化!


极光:https://www.jiguang.cn/
https://cgsss.com/

大数据周会-本周学习内容总结07相关推荐

  1. 大数据周会-本周学习内容总结0102

    目录 01.ElasticSearch-学习总结 02.Springboot+ElasticSearch构建博客检索系统 01.将MySQL数据同步到ES中 02.SpringBoot集成ES 03. ...

  2. 大数据周会-本周学习内容总结011

    开会时间:2023.04.23 15:00 线下会议 目录 01[spark] 02[es同步mysql] 03[下周任务] 01[spark] 尚硅谷大数据技术Spark教程-笔记01[Spark( ...

  3. 大数据周会-本周学习内容总结08

    目录 01[Hadoop] 1.1[MapReduce] 1.2[Yarn] 1.3[让用户自定义脚本在任意地方都可执行-配置方法] 02[下月学习内容] 老师指导 01[Hadoop] 尚硅谷大数据 ...

  4. 大数据周会-本周学习内容总结09

    开会时间:2023.04.09 20:00 腾讯会议 目录 01[scala] 1.1[已学内容] 1.2[待学内容] 02[Saprk] 会议记录 01[scala] 1.1[已学内容] 尚硅谷大数 ...

  5. 大数据周会-本周学习内容总结014

    开会时间:2023.05.21 15:00 线下会议 目录 01[fhzn项目] 02[Apache NiFi] 03[数据采集-调研] 3.1[数据采集,流程图.架构图.使用场景] 3.2[常见的数 ...

  6. 大数据周会-本周学习内容总结04

    目录 1.mysql数据同步到es 1.1.通过logstash同步数据 1.2.canal数据同步 1.3.通过logstash将本地文件导入es 2.git 1.mysql数据同步到es 1.1. ...

  7. 大数据周会-本周学习内容总结015

    开会时间:2023.05.28 15:30 线下会议 目录 01[fhzny项目] 02[Spark] 03[调研-数仓构建] 3.1[数仓构建,流程图.架构图.使用场景] 场景选择 组件设计 构建流 ...

  8. 大数据周会-本周学习内容总结05

    目录 00[陈师兄字节大厂经验分享] 01[MySQL数据同步ES] 1.1[Linux MySQL数据库数据同步Windows ES] 1.1.1[自动创建分片数为0的索引] 1.1.2[数据导入时 ...

  9. 大数据周会-本周学习内容总结010

    开会时间:2023.04.16 19:00 线下会议 目录 01[scala] 02[zookeeper] 03[spark] 04[专利] 会议记录 01[scala] 尚硅谷大数据技术Scala教 ...

最新文章

  1. 程序员会懂的冷笑话:各大编程语言的内心独白
  2. Realm的简单使用
  3. 【BZOJ 3729】3729: Gty的游戏 (Splay维护dfs序+博弈)
  4. ARTS打卡计划第六周
  5. Angular目录结构分析以及app.module.ts详解
  6. 小米4刷centos_给大家推荐两款小米的产品
  7. 编写一个程序实现方法的覆盖java_编写Java程序代码必须先声明一个____,然后在其中编写实现需求的业务代码。...
  8. python中列表 字典 元祖 enumerate()函数
  9. 美的集团2022全球招聘正式启动
  10. 12月22日 冬至 隋文帝赏柳上上签
  11. Redis(一)入门
  12. VUE 文字转语音播放
  13. Java在线打开word文档实现指定用户只能编辑指定区域
  14. vtuber面部捕捉工具_做一名VTuber 虚拟UP主需要准备哪些?
  15. 股票中什么是总负债同比增长率,有什么作用
  16. CentOS6.6下配置KMS自动激活服务器
  17. 18位身份证号码最后一位校验
  18. 不可思议的大公司组织结构图
  19. 从上家公司离开一个多月,今天前同事竟跟我说,公司要求他们删除离职人员微信好友,不删就开除!...
  20. win10如何更改mysql的密码

热门文章

  1. [转] 校园职场』 [公告]兰州城市学院学生因自习室“抢座位”引发血案,造成7人伤亡(转载)
  2. 44444444444444
  3. 分享一个自动刷抖音的代码
  4. 用计算机弹奏七月上,七月上歌词背后的故事 七月上背景故事介绍
  5. 双向联想记忆网络的原理与python简单实现
  6. 微信支付宝H5收款码扫码转账个人通道仿原生接口带备注可回调成功率9成以上
  7. 计算机英语构词法,【计算机专业论文】计算机专业英语的构词方法(共2969字)
  8. 柯尼卡美能达C364e安装步骤(全)-柯美复印机如何装机-柯美C364e驱动安装-柯美复印机安装扫描
  9. 一款非常好用的Markdown文档编辑器Typora
  10. oracle direct-load,sqlldr direct方式导致索引失效实测