大数据学习路线分享hadoop的知识总结,Hadoop的背景:原生公司是apache, cdh的cloudar公司,hortworks公司提供hdp。

其中apache的发行版本大致有1.x ,2.x,和3.x

1、由于海量数据的诞生,同时没有海量数据的存储和处理。来源google公司的gfs,mapreduce ,bigdata。

2、Hadoop的创始人是Doug cutting(据官网说,是他孩子当时玩的玩具是大象)

3、代码起源luence ----->nutch(mapreduce,ndfs)到hadoop

Hadoop1.x和2.x,3.x的区别是:

1、x和2.x最大的区别是2.x将资源管理单独提取出来使用yarn模块。2.x和3.x区别差不多。

大数据的应用:日志采集,推荐。

hadoop官方的对hadoop的解释:

The Apache? Hadoop? project develops open-source software for reliable, scalable, distributed computing.

hadoop框架允许使用简单模型来分布式处理集群中海量数据集

hadoop框架设计从单台服务器扩展成千上万台服务器,每一个都能提供本地的存储和计算。

hadoop框架设计本身就可以检测和处理应用层的失败(容错),而不是依赖硬件,因为集群中每一个都有可能失败。

hadoop包括四个模块:

common : 通用工具类支持其他hadoop的模块

hdfs (hadoop distribut file system): hadoop是分布式文件系统,提供高吞吐来处理应用数据

yarn : 作业调度和资源管理的框架

mapredcue : 基于yarn来并行处理海量数据集的系统

Hadoop分为单机版,伪分布式,全分布式。

单机版运行在单个jvm中,经常用于debug

伪分布式是运行在单机上多个虚拟机上的。

全分布式就是hadoop,运行在成千上万的集群上的。

集群的搭建需要先安装jdk,配置环境变量。

把hadoop解压安装到/usr/local下,

tar -zxvf /homo/hadoop-2.9.1.tar.gz -C /usr/local

Bin:操作hdfs 和mapreduce的可执行命令

Sbin:启停hadoop相关服务的可执行命令

Etc:hadoop相关配置文件目录

Lib ,libexec:相关执行或扩展库

Share:源码,文档和测试案例

然后配置环境变量。

Vi /etc/profile

export HADOOP_HOME=/usr/local/hadoop-2.7.1/

export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:

Source /etc/profile //使配置生效

vi ./etc/hadoop/hadoop-env.sh 告诉hadoop的jdk目录

export JAVA_HOME=/usr/local/jdk1.8.0_152/

配置ssh免密登录:在hadoop上免密登录到其他的机器上。

1、在hadoop01上生成公司密钥对().

ssh-keygen -t rsa

2、将hadoop01的公钥拷贝到想免登陆的服务器中(hadoop02).

ssh-copy-id hadoop02

3、hadoop01给hadoop02发出请求信息,hadoop02接到去authorithd_keys找对应的ip和用户名,

能找到则用其对应公钥加密一个随机字符串(找不到则输入密码),然后将加密的随机字符串返回给hadoop01,hadoop01

接到加密后的字符然后用自己的私钥解密,然后再发给HAdoop02,hadoop02判断和加密之前的是否一样,

一样则通过登录,如果不一样则拒绝。

如果window中用私钥登录。需要从登录服务器中拉去对应用户的私钥(服务器中用户的家目录下的.ssh下的id_rsa)

放到windon中的某个目录,然后使用xshell进行私钥登录。

安装Zookeeper:

zookeeper安装:

1、上传并解压

tar -zxvf zookeeper-3.4.10.tar.gz -C /usr/local

vi /etc/profile

source /etc/profile

2、配置zookeeper的配置文件

cp zoo_sample.cfg zoo.cfg

vi zoo.cfg

# the directory where the snapshot is stored.

# do not use /tmp for storage, /tmp here is just

# example sakes.

dataDir=/usr/local/zookeeper-3.4.10/zkdata

#Add

server.1=hadoop01:2888:3888

server.2=hadoop02:2888:3888

server.3=hadoop03:2888:3888

3、创建数据目录zkdata

4、在zkdata下生成myid文件

5、分发zookeeper

scp -r zookeeper-3.4.10 root@hadoop02:$PWD

scp -r zookeeper-3.4.10 root@hadoop03:$PWD

6、到hadoop02、03机器上分别修改myid号

7、启动zookeeper进程

$ZOOKEEPER_HOME/bin/zkServer.sh start

$ZOOKEEPER_HOME/bin/zkServer.sh status

8、配置zookeeper的环境变量

vi $ZOOKEEER_HOME/bin/zkEnv.sh

9、客户端的测试

bin/zkCli.sh

help

在机器上规划模块的分配

hadoop01 192.168.137.81 datanode nodemanager zookeeper qjounalnode namenode resourcemanager zkfc

hadoop02 192.168.137.82 datanode nodemanager zookeeper qjounalnode namenode resourcemanager zkfc

hadoop03 192.168.137.83 datanode nodemanager zookeeper qjounalnode

然后配置hdfs-site,xml文件,core-site.xml 和yarn.xml,mapreduce-site.xml文件。

启动命令:start-all.sh 全启动(是启动hdfs和yarn的模块的所有服务)

停止命令:stop-all.sh 全停止(停止hdfs和yarn的模块的所有服务)

Start-dfs.sh hdfs的模块启动

Stop-dfs.sh hdfs的模块的停止

启动命令:start-all.sh 全启动(是启动hdfs和yarn的模块的所有服务)

停止命令:stop-all.sh 全停止(停止hdfs和yarn的模块的所有服务)

Start-dfs.sh hdfs的模块启动

Stop-dfs.sh hdfs的模块的停止

Start-yarn.sh yarn的模块启动

Stop-yarn.sh yarn的模块的停止

单个启动:

hadoop-daemon.sh start/stop namenode :启动单个namenode

hadoop-daemons.sh start/stop namenode :启动多个namenode

hadoop-daemon.sh start/stop datanode :启动单个datanode

hadoop-daemons.sh start/stop datanode :启动多个datanode

hadoop-daemon.sh start/stop secondarynamenode :启动单个secondarynamenode

hadoop-daemons.sh start/stop secondarynamenode :启动多个secondarynamenode

yarn-daemon.sh start/stop resourcemanager

如果是第一次启动集群的话,一定要严格遵循一下流程:

1、启动zookeeper集群(自己实现一个批量启动zk的脚本)

2、启动qjounalnode(在3台机器上都要启动)

/usr/local/hadoop-2.7.1/sbin/hadoop-daemon.sh start journalnode

3、格式化hdfs

hdfs namenode -format

4、单机启动namenode

hadoop-daemon.sh start namenode

5、数据同步

1、scp -r /usr/local/hadoopdata/dfs /

2、hdfs namenode -bootstrapStandby (在hadoop02上进行数据同步,就是把namenode复制到第二台机器上去)

6、格式化zkfc

hdfs zkfc -formatZK

7、启动hdfs集群

start-dfs.sh

8、启动yarn集群

start-yarn.sh

这样集群就搭建好了。(注意配置文件的注释不要写错没有空格)

hdp对应hadoop的版本_好程序员大数据学习路线分享hadoop的知识总结相关推荐

  1. 好程序员大数据学习路线分享scala单列和伴生对象

    好程序员大数据学习路线分享scala单列和伴生对象 scala单例 object SingletonDemo { def main(args: Array[String]): Unit = { val ...

  2. 试图加载格式不正确的程序_好程序员大数据学习路线之hive存储格式

    好程序员大数据学习路线之hive存储格式,hive的存储格式通常是三种:textfile . sequencefile . rcfile . orc .自定义 set hive.default.fil ...

  3. 深圳大数据培训:好程序员大数据学习路线之hive 存储格式

    深圳大数据培训:好程序员大数据学习路线之hive 存储格式 好程序员大数据学习路线之hive存储格式,hive的存储格式通常是三种:textfile . sequencefile . rcfile . ...

  4. js怎么在一个div中嵌入另一网站_好程序员web前端学习路线分享HTML5常见面试题集锦一...

    好程序员web前端学习路线分享HTML5常见面试题集锦,接下来将会持续为大家分享几篇HTML5常见面试题. 1.布局 左边20% 中间自适应 右边200px 不能用定位 答案:圣杯布局/双飞翼布局或者 ...

  5. ajax请求是宏任务还是微任务_好程序员web前端学习路线分享了解AJAX是什么

    好程序员web前端学习路线分享了解AJAX是什么首先是服务器 什么是服务器:咱们的页面来源于服务器:实例(在phpnwo上面存放一个页面), 咱们把页面放在互联网的服务器上,就有了自己的网站了. 1. ...

  6. css 图片换行_好程序员web前端学习路线分享CSS浮动-文档流篇

    1.纯文本的排列. 文档流就像我们的文本内容一样,所有的文字都会紧挨着,一个个排列下来,如果到了边界,就会换一行排列.当然如果敲回车或者按下空格键一般都会认为是一个词间距,因为英文中每个单词之间是有距 ...

  7. 好程序员大数据笔记之:Hadoop集群搭建

    好程序员大数据笔记之:Hadoop集群搭建在学习大数据的过程中,我们接触了很多关于Hadoop的理论和操作性的知识点,尤其在近期学习的Hadoop集群的搭建问题上,小细节,小难点拼频频出现,所以,今天 ...

  8. hive hql文档_大数据学习路线分享hive的运行方式

    大数据学习路线分享hive的运行方式,hive的属性设置: 1.在cli端设置 (只针对当前的session) 3.在java代码中设置 (当前连接) 2.在配置文件中设置 (所有session有效) ...

  9. addeventlistener不支持ajax_好程序员web前端学习路线分享了解AJAX是什么

    好程序员web前端学习路线分享了解AJAX是什么首先是服务器 什么是服务器:咱们的页面来源于服务器:实例(在phpnwo上面存放一个页面), 咱们把页面放在互联网的服务器上,就有了自己的网站了. 1. ...

最新文章

  1. 虚拟机中docker安装mysql远程无法访问解决方法
  2. ascii码_umask,补码,ASCII码:稍微深入考虑一点
  3. 《It's All Upside Down》作者访谈录
  4. FineReport——JS二次开发(局部刷新)
  5. Boost:用OpenCL编写的简单flip filter的测试程序
  6. java做 binggo,Linux启动与停止spring boot工程的脚本示例
  7. json符号解释大全_牛年汪姓男孩高端大气的名字大全
  8. Sinkhorn算法,正矩阵与双随机矩阵之间的关系
  9. 商户分账交易汇总和商户交易汇总不一致
  10. Codis安装部署全架构
  11. Html辅助方法(分页、下拉框)
  12. 极限学习机的一篇小综述
  13. 非线性方程求解 matlab,MATLAB应用 求解非线性方程
  14. 程序员之路:Gmail邮箱客户端配置_彭世瑜_新浪博客
  15. 微信热修复框架Tinker集成和使用,爬了很多坑后。带你成功跑通项目!
  16. 低成本、快速造测试数据,这个工具你指的拥有
  17. 解决MacBook Pro Touch ID失灵不起作用的方法
  18. #python 自动识别视频字幕
  19. [ACM]辽宁省赛2010 (HZNU 1081-1089)
  20. CSS兼容性技巧整理从IE6-IE9 火狐谷歌浏览器兼容

热门文章

  1. win10浏览器闪退_Win10系统Edge浏览器闪退问题的解决方法
  2. bzoj2460 [BeiJing2011]元素 贪心+线性基
  3. 每日小记 2017.6.29
  4. 每日小记 2017 2.9
  5. 【英语学习】【English L06】U04 Adventure L2 It's worth a visit
  6. Intel 64/x86_64/IA-32/x86处理器 - 指令格式(1) - 概述
  7. js实现excel块拖拉数据_Excel操作比Python更方便?常见数据操作Excel实现和Python实现的比较...
  8. C开源hash代码uthash的用法总结(2)
  9. java lambda map用法_Java 中如何使用 lambda 表达式填充 Map?
  10. Epic Games 携精彩作品强势登录 GMGC 2016