Hadoop分布式集群的安装与部署实训总结报告
目录
前言
一、Hadoop平台框介绍
1.Hadoop的架构
2.HDFS:遵循主从架构,它具有以下元素。
2.1 名称节点 -Namenode
2.2 数据节点 - Datanode
2.3 块 -block
3.HDFS常用命令
4.MapReduce
4.1 客户端(client):
4.2 JobTracker:
4.3 TaskTracker:
4.4 Hdfs:
二、CentOS集群的安装与配置
1.安装虚拟机
2.安装Xshell
3.CentOS系统配置
4.无密码登陆配置
5.安装jdk
总结
前言
本文为LINUX系统下的Hadoop分布式集群的安装与部署实训步骤分享
首次分享:望海涵,有错请及时告知。
目标:掌握Hadoop分布时集群的安装与部署具体步骤与相关经验总结
一、Hadoop平台框介绍
1.Hadoop的架构
在其核心,Hadoop主要有两个层次,即:
- 加工/计算层(MapReduce)
- 存储层(Hadoop分布式文件系统)
除了上面提到的两个核心组件,Hadoop的框架还包括以下两个模块:
- Hadoop通用:这是Java库和其他Hadoop组件所需的实用工具
- Hadoop YARN :这是作业调度和集群资源管理的框架
Hadoop Streaming 是一个实用程序,它允许用户使用任何可执行文件(例如shell实用程序)作为映射器和/或reducer创建和运行作业。
2.HDFS:遵循主从架构,它具有以下元素。
2.1 名称节点 -Namenode
名称节点是包含GNU/Linux操作系统和软件名称节点的普通硬件。它是一个可以在商品硬件上运行的软件。具有名称节点系统作为主服务器,它执行以下任务:
- 管理文件系统命名空间。
- 规范客户端对文件的访问。
- 它也执行文件系统操作,如重命名,关闭和打开的文件和目录。
2.2 数据节点 - Datanode
Datanode具有GNU/Linux操作系统和软件Datanode的普通硬件。对于集群中的每个节点(普通硬件/系统),有一个数据节点。这些节点管理数据存储在它们的系统。
- 数据节点上的文件系统执行的读写操作,根据客户的请求。
- 还根据名称节点的指令执行操作,如块的创建,删除和复制。
2.3 块 -block
一般用户数据存储在HDFS文件。在一个文件系统中的文件将被划分为一个或多个段和/或存储在个人数据的节点。这些文件段被称为块。换句话说,数据的HDFS可以读取或写入的最小量被称为一个块。缺省的块大小为64MB,但它可以增加按需要在HDFS配置来改变
3.HDFS常用命令
- 运行jar包:hadoop jar /Users/kexin/work/projects/Hadoop/target/hadoop-0.0.1-SNAPSHOT.jar com.kexin.hadoop.units.WordCount /test/test.txt /project/wordcount/output
- 文件系统操作:hadoop fs -cat|ls|mkdir
- 上传文件:hadoop dfs -put ./testdata.txt /testdata
- 递归删除目录及文件:hadoop fs -rmr /testdata
- 删除文件:hadoop fs -rm /testdata.txt
4.MapReduce
MapReduce计划分三个阶段执行,即映射阶段,shuffle阶段,并减少阶段。
涉及到的角色:
4.1 客户端(client):
编写mapreduce程序,配置作业,提交作业,这就是程序员完成的工作;
4.2 JobTracker:
初始化作业,分配作业,与TaskTracker通信,协调整个作业的执行;
4.3 TaskTracker:
保持与JobTracker的通信,在分配的数据片段上执行Map或Reduce任务,
TaskTracker和JobTracker的不同有个很重要的方面,就是在执行任务时候TaskTracker可以有n多个,JobTracker则只会有一个(JobTracker只能有一个就和hdfs里namenode一样存在单点故障,我会在后面的mapreduce的相关问题里讲到这个问题的)
4.4 Hdfs:
保存作业的数据、配置信息等等,最后的结果也是保存在hdfs上面
- map阶段:映射或映射器的工作是处理输入数据。一般输入数据以存储在HDFS的文件或目录的形式,输入文件被传递到映射器功能线路,映射器处理该数据,并创建数据的若干小块。
- reduce阶段:这个阶段是Shuffle阶段和Reduce阶段的组合。减速器的工作是处理该来自映射器中的数据。处理之后,它产生一组新的输出,这将被存储在HDFS。
在一个MapReduce工作过程中:
- 由Hadoop发送Map和Reduce任务到集群的相应服务器
- 框架管理数据传递,例如发出任务的所有节点之间的集群周围的详细信息,验证任务完成,和复制数据
- 大部分的计算发生在与在本地磁盘上,可以减少网络通信量数据的节点
- 给定的任务完成后,将收集并减少了数据,以一个合适的结果发送回Hadoop服务器
二、CentOS集群的安装与配置
1.安装虚拟机
2.安装Xshell
3.CentOS系统配置
(1)虚拟机 编辑-虚拟网络编辑器 nat模式
配置ip地址:192.168.8.2/3/4
(2)关闭防火墙
service iptables stop
chkconfig iptables off
4.无密码登陆配置
(2) 实现master到slave免密登录
在master上执行 ssh localhost 会在roothome目录生成.ssh目录
执行 ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa
cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys 实现本地免密登录
将id_dsa.pub远程拷贝到其他机器上
scp ~/.ssh/id_dsa.pub root@Slave1:`pwd`
在Slave1电脑上执行
cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys
5.安装jdk
- Hadoop通用:这是Java库和其他Hadoop组件所需的实用工具
- Hadoop YARN :这是作业调度和集群资源管理的框架
- Hadoop通用:这是Java库和其他Hadoop组件所需的实用工具
- Hadoop YARN :这是作业调度和集群资源管理的框架
- HDFS:
- HDFS常用命令
- 运行jar包:hadoop jar /Users/kexin/work/projects/Hadoop/target/hadoop-0.0.1-SNAPSHOT.jar com.kexin.hadoop.units.WordCount /test/test.txt /project/wordcount/output
- 文件系统操作:hadoop fs -cat|ls|mkdir
- 上传文件:hadoop dfs -put ./testdata.txt /testdata
- 递归删除目录及文件:hadoop fs -rmr /testdata
- 删除文件:hadoop fs -rm /testdata.txt
- MapReduce
- map阶段:映射或映射器的工作是处理输入数据。一般输入数据以存储在HDFS的文件或目录的形式,输入文件被传递到映射器功能线路,映射器处理该数据,并创建数据的若干小块。
- reduce阶段:这个阶段是Shuffle阶段和Reduce阶段的组合。减速器的工作是处理该来自映射器中的数据。处理之后,它产生一组新的输出,这将被存储在HDFS。
- CentOS集群的安装与配置
- 安装虚拟机
- 安装Xshell
- CentOS系统配置
- 无密码登陆配置
- 安装jdk
- Hadoop的安装与配置
- 上传hadoop安装包
- 编辑配置文件core-site.xml hdfs-site.xml yarn-site.xml mapred-site.xml
- 配置从节点信息
- 集群的启动和运行
- 命令查看
- 网页查看
- 范例程序(wordcount)运行
总结
HDFS优点总结:
1、支持任意超大文件存储;硬件节点可不断扩展,低成本存储(真实案例为:4000节点,目前最大5000节点);
2 、对上层应用屏蔽分布式部署结构,提供统一的文件系统访问接口,感觉就是一个大硬盘;应用无需知道文件具体存放位置,使用简单;
3、文件分块存储(1块缺省64MB),不同块可分布在不同机器节点上,通过元数据记录文件块位置;应用顺序读取各个块;
4 、系统设计为高容错性,允许廉价PC故障;每块文件数据在不同机器节点上保存3份;这种备份的另一个好处是可方便不同应用就近读取,提高访问效率。
HDFS缺点总结:
1、适合大数据文件保存和分析,不适合小文件,由于分布存储需要从不同节点读取数据,效率反而没有集中存储高;一次写入多次读取,不支持文件修改;
2、是最基础的大数据技术,基于文件系统层面提供文件访问能力,不如数据库技术强大,但也是海量数据库技术的底层依托;
3、文件系统接口完全不同于传统文件系统,应用需要重新开发。
个人实验总结:通过本次实验,简单掌握了Hadoop整体的搭建过程,电脑内存不足,搭建三台虚拟机导致电脑数次崩溃,网页查看时多次出错。在Hadoop伪分布式的安装配置过程中,遇到许许多多的问题,安装jdk,配置环境变量,安装ssh等等。同时在本次实验中认识到了自己的不足,对Linux系统不够熟悉,在以后的学习中需要进一步努力。实验考验是一个人的耐心,实验步骤要一步一步地做,每一步都要严谨认真。今后会加强对Linux系统知识的掌握,力求手到擒来。
Hadoop分布式集群的安装与部署实训总结报告相关推荐
- Hadoop分布式集群的安装(图解)
全局统筹 前言 安装前的检查 开始安装虚拟机 Linux的网络配置步骤 虚拟机内部设置 进入虚拟机 安装其他东西 克隆虚拟机 开始搭建分布式集群 集群配置 启动集群 jps查看进程 常见问题 前言 这 ...
- 搭建hadoop分布式集群
搭建hadoop分布式集群 ~ jdk安装 ip修改 vi /etc/sysconfig/network-scripts/ifcfg-eth0 DEVICE=eth0 BOOTPROTO=none H ...
- Hadoop伪分布式集群的安装部署
Hadoop伪分布式集群的安装部署Hadoop伪分布式集群的安装部署 首先可以为Linux虚拟机搭建起来的最初状态做一个快照,方便后期搭建分布式集群时多台Linux虚拟机的准备. 一.如何为虚拟机做快 ...
- Hadoop分布式集群安装在三台Ubuntu系统电脑
前段时间搭建Hadoop分布式集群,踩了不少坑,网上很多资料都写得不够详细,对于新手来说搭建起来会遇到很多问题.以下是自己根据搭建Hadoop分布式集群的经验希望给新手一些帮助.当然,建议先把HDFS ...
- 搭建Hadoop分布式集群的详细教程
目录 写在前面 一.创建虚拟机,安装Centos 二.VMware VMnet8模式共享主机网络配置 三.克隆集群节点HadoopSlave1与HadoopSlave2 四.Linux系统配置 五.H ...
- hadoop分布式集群搭建
hadoop集群搭建前的准备(一定要读):https://blog.51cto.com/14048416/2341450 hadoop分布式集群搭建: 1. 集群规划: 2.具体步骤: (1)上传安装 ...
- 【转】Hadoop分布式集群搭建hadoop2.6+Ubuntu16.04
https://www.cnblogs.com/caiyisen/p/7373512.html 前段时间搭建Hadoop分布式集群,踩了不少坑,网上很多资料都写得不够详细,对于新手来说搭建起来会遇到很 ...
- Hadoop分布式集群搭建hadoop2.6+Ubuntu16.04
前段时间搭建Hadoop分布式集群,踩了不少坑,网上很多资料都写得不够详细,对于新手来说搭建起来会遇到很多问题.以下是自己根据搭建Hadoop分布式集群的经验希望给新手一些帮助.当然,建议先把HDFS ...
- Hadoop教程(二)Hadoop伪集群环境安装
Hadoop教程(二)Hadoop伪集群环境安装 本文链接:https://blog.csdn.net/yuan_xw/article/details/50039325 Hadoop教程(二)Hado ...
最新文章
- JS Range 对象的使用
- fastjson反序列化漏洞_漏洞预警Fastjson再爆反序列化代码执行漏洞;星巴克被发现存在信息泄露风险...
- 3.Spring Cloud Alibaba教程:Nacos服务注册与发现
- HDU 1757 A Simple Math Problem (矩阵快速幂)
- C++ 11 深度学习(五)类型转换:static_cast dynamic_cast const_cast reinterpret_cast
- Jupyter Notebook数据科学高效技巧
- 机器学习速成课程 | 练习 | Google Development——编程练习:使用 TensorFlow 的起始步骤
- pyqt5-步长调节器
- Linux 逻辑卷管理LVM
- mysql innodb ibd,mysql innodb 从 ibd 文件恢复表数据
- JS表单验证之正则表达式
- 图书管理系统(数据库)
- 漫谈多模光纤类型:OM1、OM2、OM3、OM4、OM5,深度好文,值得阅读
- java生成二维码技术实现
- 萌系外表+丰富功能,i宝机器人成CES人气展品
- 045孙悟空和独角大王对话
- tools1.0.1
- 图片压缩工具riottinypng
- 你所不知道的console.log()(console.log详解)
- 图片太大,如何免费进行压缩
热门文章
- 强化学习算法:AC系列详解
- Professor Forcing: A New Algorithm for Training Recurrent Networks翻译
- 等保2.0测评综合得分计算
- 隐形眼镜的评价分析报告
- 计算机和网络之间有个感叹号,电脑连接网络显示感叹号,教你电脑连接网络显示感叹号怎么办...
- 探索的动机: 爱因斯坦于1918年4月的讲话
- 数据结构之线性表----一文看懂顺序表、单链表、双链表、循环链表
- 常用的文件后缀都有哪些?
- 【总结】1361- package.json 与 package-lock.json 的关系
- ubuntu shell命令划重点