近几年大数据越来越火热。由于工作需要以及个人兴趣,最近开始学习大数据相关技术。学习过程中的一些经验教训希望能通过博文沉淀下来,与网友分享讨论,作为个人备忘。

第一篇,在win7虚拟机下搭建hadoop2.6.0伪分布式环境。

1. 所需要的软件

使用Vmware 11.0搭建虚拟机,安装Ubuntu 14.04.2系统。

Jdk 1.7.0_80

Hadoop 2.6.0

2. 安装vmware和ubuntu

3. 在ubuntu中安装JDK

将jdk解压缩到目录:/home/vm/tools/jdk

在~/.bash_profile中配置环境变量,并通过source ~/.bash_profile生效。

#java

export JAVA_HOME=/home/vm/tools/jdk

export JRE_HOME=/home/vm/tools/jdk/jre

export PATH=$JAVA_HOME/bin:$JRE_HOME/bin:$PATH

export CLASSPATH=$JAVA_HOME/lib:$JRE_HOME/lib:$CLASSPATH

检验jdk安装是否成功。

4. 配置ssh信任关系,实现无密码登录

4.1 安装ssh

Ubuntu默认安装了ssh客户端,但没有安装ssh服务端,因此可以通过apt-get安装。

安装ssh-server:sudo apt-get install openssh-server

如果没有ssh客户端,也可以通过apt-get安装。

安装ssh-client:sudo apt-get install openssh-client

启动ssh-server:sudo service ssh start

启动以后,通过ps –aux | grep sshd查看ssh服务器是否安装成功。

4.2 配置ssh信任关系

生成机器A的公私密钥对:ssh-keygen -t rsa,之后一路回车。在~/.ssh目录下生成公钥id_rsa.pub,私钥id_ras。

拷贝机器A的id_rsa.pub到机器B的认证文件中:

cat id_rsa.pub >> ~/.ssh/authorized_keys

这时候机器A到机器B的信任关系就建立好了,此时在机器A可以不需要密码直接ssh登录机器B了。

本例中机器A和B是同一台机器,配置ssh信任关系以后可以使用ssh localhost或者ssh 机器IP地址来验证。

5. 安装hadoop2.6.0

5.1 解压hadoop2.6.0

从官网下载hadoop-2.6.0.tar.gz,解压到目录/home/vm/tools/hadoop,并配置~/.bash_profile环境变量。通过source ~/.bash_profile生效。

#hadoop

export HADOOP_HOME=/home/vm/tools/hadoop

export PATH=$HADOOP_HOME/bin:$PATH

export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native

export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib"

5.2 修改配置文件

修改$HADOOP_HOME/etc/hadoop/hadoop-env.sh和yarn-evn.sh,配置JAVA_HOME路径:

修改$HADOOP_HOME/etc/hadoop/slaves,增加本机IP地址:

cat "192.168.62.129" >> slaves

修改$HADOOP_HOME/etc/hadoop/下的几个重要的*-site.xml:

core-site.xml 192.168.62.129是我虚拟机的IP地址

<configuration>

<property>

<name>fs.defaultFS</name>

<value>hdfs://192.168.62.129:9000</value>

</property>

<property>

<name>hadoop.tmp.dir</name>

<value>file:/home/vm/app/hadoop/tmp</value>

<description>a base for other temporary directories.</description>

</property>

</configuration>

hdfs-site.xml

<configuration>

<property>

<name>dfs.replication</name>

<value>1</value>

</property>

<property>

<name>dfs.namenode.name.dir</name>

<value>file:/home/vm/app/hadoop/dfs/nn</value>

</property>

<property>

<name>dfs.namenode.data.dir</name>

<value>file:/home/vm/app/hadoop/dfs/dn</value>

</property>

<property>

<name>dfs.permissions</name>

<value>false</value>

<description>

permission checking is turned off

</description>

</property>

</configuration>

mapred-site.xml

<configuration>

<property>

<name>mapred.job.tracker</name>

<value>hdfs://192.168.62.129:9001</value>

</property>

<property>

<name>mapreduce.framework.name</name>

<value>yarn</value>

</property>

</configuration>

yarn-site.xml

<configuration>

<!-- Site specific YARN configuration properties -->

<property>

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce_shuffle</value>

</property>

</configuration>

5.3 格式化文件系统

在$HADOOP_HOME下执行bin/hdfs namenode –format格式化文件系统

5.4 启停

在$HADOOP_HOME下执行sbin/start-dfs.sh和sbin/start-yarn.sh启动hadoop集群,执行sbin/stop-dfs.sh和sbin/stop-yarn.sh停止hadoop集群。

启动过程例如:

启动完毕进程如下:

6. 查询集群信息

8088端口,查看All Applications信息:

50070端口,查看hdfs信息:

7. 验证hadoop环境搭建是否成功

7.1 验证hdfs是否正常

可以使用各种hdfs命令测试。例如:

hdfs dfs -ls ./

hdfs dfs -put file.1 ./

hdfs dfs -get ./file1

hdfs dfs -rm -f ./file.1

hdfs dfs -cat ./file1

hdfs dfs -df -h

7.2 验证map/reduce计算框架是否正常

在$HADOOP_HOME目录下执行:bin/hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.0.jar wordcount ./count_in/ ./count_out/

其中./count_in/提前在hdfs集群创建,统计该目录下所有文件的单词数量,输出到./count_out/目录。

执行过程示例如下:

执行完毕生成结果:

至此,Hadoop2.6.0的伪分布式环境搭建完成。

转载于:https://www.cnblogs.com/simplestupid/p/4679016.html

在Win7虚拟机下搭建Hadoop2.6.0伪分布式环境相关推荐

  1. Hadoop2.2.0伪分布式环境搭建(附:64位下编译Hadoop-2.2.0过程)

    Hadoop2.2.0伪分布式环境搭建: 写在前面:Hadoop2.2.0默认是支持32位的OS,如果想要在64位OS下运行的话,可以通过在64位OS下面编译Hadoop2.2.0来实现,编译的操作步 ...

  2. Hadoop小兵笔记【六】hadoop2.2.0伪分布式环境搭建疑难-JobHistory显示Job信息为空

    问题现象 运行Hadoop2.2.0自带的wordcount实例: Job运行成功: http://Master:8080/cluster/app查看Job信息为空: http://Master:19 ...

  3. Hadoop小兵笔记【五】hadoop2.2.0伪分布式环境搭建疑难-第一个用例wordcount失败

    问题现象 问题原因 由于参考了之前研究生阶段下载的资料,按照真分布式环境一步步配置,觉得只是将datanode同时存放在namenode,将hdfs-site.xml文件中的dfs.replicati ...

  4. 安装hadoop2.6.0伪分布式环境

    集群环境搭建请见:http://blog.csdn.net/jediael_lu/article/details/45145767 一.环境准备 1.安装linux.jdk 2.下载hadoop2.6 ...

  5. Hadoop2.6.0伪分布环境搭建

    用到的软件: 一.安装jdk: 1.要安装的jdk,我把它拷在了共享文件夹里面.   (用优盘拷也可以) 2.我把jdk拷在了用户文件夹下面. (其他地方也可以,不过路径要相应改变) 3.执行复制安装 ...

  6. .nwt+core+2.0+mysql_Centos7系统下搭建.NET Core2.0+Nginx+Supervisor环境

    一.Linux .NET Core简介 一直以来,微软只对自家平台提供.NET支持,这样等于让这个"理论上"可以跨平台的框架在Linux和macOS上的支持只能由第三方项目提供(比 ...

  7. windows下搭建hadoop-2.6.0本地idea开发环境

    概述 本文记录windows下hadoop本地开发环境的搭建: OS:windows hadoop执行模式:独立模式 安装包结构: Hadoop-2.6.0-Windows.zip- cygwinIn ...

  8. Hadoop2.2.0伪分布式搭建

    在hadoop中,分为单机模式,伪分布式,和完全分布式.而伪分布式在1.X中就是类似JobTracker和TaskTracker都在一台机器上运行,在2.X中,就是NameNode和DataNode在 ...

  9. 搭建hadoop2.6.0集群环境

    一.规划 (一)硬件资源 10.171.29.191 master 10.171.94.155  slave1 10.251.0.197 slave3 (二)基本资料 用户:  jediael 目录: ...

最新文章

  1. flux java_FluxJava 新增 RxJava2 的支援功能
  2. 对话云知声李霄寒:不计成本研发芯片,探索语音之外的“硬”实力
  3. 连接LilyPad之Windows平台的驱动
  4. opendir 从不兼容的指针类型赋值
  5. proe2001安装指南
  6. optimize table优化mysql例子
  7. 《计算机网络》第一章:基础知识Part II
  8. win7/64位下python2.7、easy_install安装经验
  9. 数据库设计说明书的编写
  10. javascript 定义对象、方法和属性的使用方法(prototype)
  11. 【笔记】用Python写百度翻译网络爬虫
  12. win7老计算机,windows7旗舰版系统电脑老是自动重启的原因汇总
  13. Flash打造拟真生态水族鱼缸
  14. redis修改密码(windows)
  15. java 生成kml文件_如何使用kml文件在地图上绘制路径?
  16. C语言入门——初识C语言
  17. python表情包多样化聊天室_Python | 信不信我分分钟批量做你大堆的表情包?
  18. win7系统如何添加打印机服务器,怎样如何添加打印机驱动步骤
  19. Windows10文件后缀名不显示·解决方法
  20. Angular 4 Router

热门文章

  1. 如何给虚拟机上的linux系统添加虚拟硬盘
  2. React开发(201):react代码分割之打包导出
  3. 前端学习(3294):effect hook
  4. React开发(135):ant design学习指南之form中动态form新增删除
  5. Taro+react开发(32) Please use the ‘new‘ operator, this DOM object constructor cannot be called as a fu
  6. [css] css怎么更改表单的单选框或下拉框的默认样式?
  7. [css] css中padding和margin是相对于父元素还是子元素呢?
  8. [vue] 你知道v-model的原理吗?说说看
  9. 工作259:uni--页面--验证码添加
  10. 前端学习(2774):方式1进行路由跳转