电商数仓实战


环境搭建快速回忆

这次详细写!------阿里云ECS云服务器抢占式

1.进入环境先创建wts用户

1.useradd wts
2.passwd wts
去/home/下查看有没有wts
接下来很多内容都要在wts下实现,这很重要

2 . 现在root用户下面,给wts赋予超级权力:sudo

1.[root@hadoop100 ~]# vim /etc/sudoers
2.找到下列的部分,添加(wts ALL=(ALL) NOPASSWD:ALL)
##Allows people in group wheel to run all commands
%wheel ALL=(ALL) ALL
wts ALL=(ALL) NOPASSWD:ALL3.退出的时候改用!wq的自己看

3 .接下来修改映射

1.windows下hosts,用公网ip
2.云服务器环境:用私有ip(别你妈搞错了,这个时候如果在wts下,要用sudo 的)

4 .三台机子免密登录: 三台同时跑

1. ssh-keygen -t rsa
2. 遇到输入密码就输入密码ssh-copy-id hadoop102ssh-copy-id hadoop103ssh-copy-id hadoop1043.自己ssh验证一下

5 .多个脚本,在wts下的bin下写

111.先xsync

#!/bin/bash
#1. 判断参数个数
if [ $# -lt 1 ]
thenecho Not Enough Arguement!exit;
fi
#2. 遍历集群所有机器
for host in hadoop112 hadoop113 hadoop114
doecho ====================  $host  ====================#3. 遍历所有目录,挨个发送for file in $@do#4. 判断文件是否存在if [ -e $file ]then#5. 获取父目录pdir=$(cd -P $(dirname $file); pwd)#6. 获取当前文件的名称fname=$(basename $file)ssh $host "mkdir -p $pdir"rsync -av $pdir/$fname $host:$pdirelseecho $file does not exists!fidone
done

222–jpsall

 #!/bin/bashfor host in hadoop102 hadoop103 hadoop104doecho =============== $host ===============ssh $host jps done

333–hadoop.sh 群起脚本

  #!/bin/bashif [ $# -lt 1 ]thenecho "No Args Input..."exit ;ficase $1 in"start")echo " =================== 启动 hadoop集群 ==================="echo " --------------- 启动 hdfs ---------------"ssh hadoop112 "/opt/module/hadoop313/sbin/start-dfs.sh"echo " --------------- 启动 yarn ---------------"ssh hadoop113 "/opt/module/hadoop313/sbin/start-yarn.sh"echo " --------------- 启动 historyserver ---------------"ssh hadoop112 "/opt/module/hadoop313/bin/mapred --daemon start historyserver";;"stop")echo " =================== 关闭 hadoop集群 ==================="echo " --------------- 关闭 historyserver ---------------"ssh hadoop112 "/opt/module/hadoop313/bin/mapred --daemon stop historyserver"echo " --------------- 关闭 yarn ---------------"ssh hadoop113 "/opt/module/hadoop313/sbin/stop-yarn.sh"echo " --------------- 关闭 hdfs ---------------"ssh hadoop112 "/opt/module/hadoop313/sbin/stop-dfs.sh";;*)echo "Input Args Error...";;esac

jdk配置


1. 概念

技术选型:

数据流程设计

搭建环境

阿里ECS云服务器搭建学习: 密码Wts111111

三台ECS创建wts用户:

useradd wts
passwd wts
输入两边密码
cd /home   有无wts?

让wts有sudoer权力:

[root@hadoop100 ~]# vim /etc/sudoers修改/etc/sudoers文件,在%wheel这行下面添加一行,如下所示:
wts ALL=(ALL) NOPASSWD:ALL

配置windows下hosts映射:不多说了
配置三个ecs之间的映射:不多说了

阿里云ECS云服务器–选择的是抢占式 很便宜
P23课(电脑不够,云服务器来凑;开虚拟机的话后期16G内存根本不够)

前面根据之前学的mapreduce配置,其中配置三台云服务器之间的免密码登录的时候遇到了点小问题:
1.首先要在三台云服务器里面设置映射:vim /etc/hosts
把相关的私有IP(上图)写进去
2.然后才可以配置之间的免密码登录

解压jdk
创建目录/opt/software jdk传输到这里
创建目录/opt/module jdk解压到这里
[wts@hadoop102 module]$ tar -zxvf jdk-8u212-linux-x64.tar.gz -C /opt/module

生成日志

把材料中的四个文件拖进/opt/module/applog下面
运行:java -jar gmall2020-mock-log-2021-01-22.jar

写集群日志生成脚本lg.sh,脚本统一写在~/bin目录下

#!/bin/bash
for i in hadoop102 hadoop103; doecho "========== $i =========="ssh $i "cd /opt/module/applog/; java -jar gmall2020-mock-log-2021-01-22.jar >/dev/null 2>&1 &"
done

lg.sh脚本applog文件夹分发到hadoop102 103上面,
(删除hadoop104的applog,要求部署在102和103上面;同时删除刚刚在102运行产生的log日志)
效果:启动脚本,102和103上产生log日志…

集群所有进程查看脚本

同理在~/bin下创建脚本:vim xcall.sh

#! /bin/bashfor i in hadoop102 hadoop103 hadoop104
doecho --------- $i ----------ssh $i "$*"
done

分发到三个集群,效果:

用户行为数据采集

安装和解压hadoop,配置hadoop
五个地方要配置(core,hdfs,yarn,mapreduce,workers)
另外还要配置历史服务器日志聚集

下面:
配置全部完成,第一次格式化,第二次启动hadoop
报错了,如下:

参考大哥:ERROR: but there is no HDFS_NAMENODE_USER defined. Aborting operation. 其中的方式二解决

最终的效果:红色的区域和老师启动不太一样,但是jps是一样的。(这个方法没有解决yarn的报错,不知道为什么,留着。。。)

hadoop103上启动yarn:
报错:

参考:启动start-yarn.sh报错ERROR: Attempting to operate on yarn resourcemanager as root ERROR: but there is no

解决方法:
到 sbin 目录下 更改 start-yarn.sh 和 stop-yarn.sh 信息,在两个配置文件的第一行添加:

YARN_RESOURCEMANAGER_USER=root
HADOOP_SECURE_DN_USER=yarn
YARN_NODEMANAGER_USER=root

有报错:jps运行正常,ping三台ECS云服务器的公IP也是同的,但是hadoop102:9870页面打不开
解决办法汇总:

1.Windows下ping一下hadoop102是否通?有问题大概率是windows下的hosts映射
2.虚拟环境,防火墙关了
3.检查hdfs-site.xml 配置web页面的那一块是否写对了4如果你也是和我一样的阿里云服务ECS,你的安全组端口,要自己配一下9870的端口.(我就是这个问题)

zookeeper

解压改名安装配置

1.   创建zkData 给三台机器各自的myid
2. 配置conf,zoo.cfg修改数据存储路径到zkData里面
配置设置server.A=B:C:D

群起zookeeper:

#!/bin/bashcase $1 in
"start"){for i in hadoop102 hadoop103 hadoop104doecho ---------- zookeeper $i 启动 ------------ssh $i "/opt/module/zookeeper-3.5.7/bin/zkServer.sh start"done
};;
"stop"){for i in hadoop102 hadoop103 hadoop104doecho ---------- zookeeper $i 停止 ------------    ssh $i "/opt/module/zookeeper-3.5.7/bin/zkServer.sh stop"done
};;
"status"){for i in hadoop102 hadoop103 hadoop104doecho ---------- zookeeper $i 状态 ------------    ssh $i "/opt/module/zookeeper-3.5.7/bin/zkServer.sh status"done
};;
esac

777 该权限,后就可以使用

大数据电商数仓实战v5.0 (尚硅谷)相关推荐

  1. 2 大数据电商数仓项目——项目需求及架构设计

    2 大数据电商数仓项目--项目需求及架构设计 2.1 项目需求分析 用户行为数据采集平台搭建. 业务数据采集平台搭建. 数据仓库维度建模(核心):主要设计ODS.DWD.DWS.AWT.ADS等各个层 ...

  2. 电商数仓描述_笔记-尚硅谷大数据项目数据仓库-电商数仓V1.2新版

    架构 项目框架 数仓架构 存储压缩 Snappy与LZO LZO安装: 读取LZO文件时,需要先创建索引,才可以进行切片. 框架版本选型Apache:运维麻烦,需要自己调研兼容性. CDH:国内使用最 ...

  3. 大数据电商数仓--记录各种奇奇怪怪的issue

    目录 hive on spark报错:Failed to create Spark client for Spark session hive格式化报错Error hive执行sql语句报错:org. ...

  4. 大数据电商数仓分析项目

  5. 大数据---离线数仓实战项目(四)

    离线数仓实战---网站流量日志分析系统 一.模块开发---数据生成模块 1.1.目标数据 1.1.1.页面数据 1.1.2.事件数据 1.1.3.曝光数据 1.1.4.启动数据 1.1.5.错误数据 ...

  6. Hive电商数仓实战

    项目描述 以电商数据为基础,详细介绍数据处理流程,结合hive数仓.spark开发采用多种方式实现大数据分析. 数据源可通过日志采集.爬虫.数据库中取得,经过数据清洗转换导入数据仓库,通过数仓中数据分 ...

  7. 大数据Flink电商数仓实战项目流程全解(一)

    项目整体思路和架构 项目最终成果展示: 本项目主要参考尚硅谷的Flink实时数仓项目完成,最近又重新跑了一遍,项目整体我会在后续上传到码云中, 也会逐步同步更新到博客中来,里面不仅包含了整体代码和整个 ...

  8. BAT大数据电商画像实战

    课程概述 本课程需要一定的大数据基础知识,没有相关经验的同学,可以免费咨询我,领取百分百入门资料!!! 课程介绍 本课程主要围绕电商,打造一个电商画像平台,利用电商画像进行如下分析 1)用户的行为事件 ...

  9. 计算机毕业设计之SpringBoot+Vue.js+WebMagic电商数据分析 电商大数据 电商数据采集系统 电商大屏 大数据毕业设计 电商知识图谱

    需求 近5年电商企业社会责任数据,数据可视化 (1) 社会责任数据 (2) 电商企业:(30家左右的数据即可) 1-10名:阿里巴巴.美团点评.拼多多.京东.小米集团.滴滴.贝壳找房.京东健康.阿里健 ...

最新文章

  1. MyBatis学习总结(二)——使用MyBatis对表执行CRUD操作
  2. QQ web api
  3. LeetCode Count Numbers with Unique Digits(计数问题)
  4. C++20 - 下一个大版本功能确定
  5. python测试4_Python 各种测试框架简介(四):pytest
  6. 查找整数c语言编程,关于算法:查找整数的位数
  7. 【华为云技术分享】云小课 | SAP容灾一点通
  8. 工程联盟管理平台、CRM、项目管理、合同管理、合作商管理、考勤管理、成本管理、指标管理、业主管理、工时报告、招投标、开票回单、物料库、培训中心、知识库、采购管理、Axure原型、产品原型、rp原型
  9. 第5条:用枚举表示状态、选项、状态码
  10. intellij idea rearrange code
  11. “21天好习惯”第一期-8
  12. 实验二:运算器数据通路
  13. web前端开发基础入门教程之HTML5 浏览器支持
  14. 腾讯云服务器操作系统TencentOS的正确安装方法
  15. vba自定义函数,设置加载宏,建立自己的excel函数库,代码库
  16. 【计科快速入门】 三、布尔逻辑和逻辑门
  17. 传世单机版怎么建立服务端?
  18. 精准DNA甲基化/羟甲基化测序(oxBS-seq)|易基因技术推介
  19. Qt label使用html样式设置文字
  20. 软考云题库Web版题库V1.1更新功能

热门文章

  1. 安卓安全/逆向面试题
  2. [案例研究]—superJumper 3.游戏中的物体与主游戏逻辑
  3. Excel批量更改文件名
  4. 光伏储能容量优化MATLAB论坛,光伏储能:峰谷套利+辅助服务可提高总收益!储能容量优化配置方法简介 - 北极星储能网...
  5. 计算机的桌面过大要怎么改,教您电脑桌面图标的太大怎么调小
  6. 新 Slogan 新征程|OceanBase 海量记录 笔笔算数
  7. USB3.0芯片FT601Q简介及FPGA实现
  8. 扎克伯格多疑又偏执?《连线》杂志记者曝光Facebook鲜为人知的秘密
  9. Arbitrum 的 Nitro 项目启动和交易执行源码解析
  10. HTML5,CSS制作个人简历