1.1 准备
通过gedit编辑器修改比较方便,因此需先安装gedit。

sudo apt-get install gedit

1.2 修改配置文件core-site.xml和hdfs-site.xml(如下注释部分需要删除)

  • gedit打开core-site.xml
$ gedit ./etc/hadoop/core-site.xml
<configuration>#在该语句对中添加如下语句,单机模式删除该语句对中的所有语句。<property><name>hadoop.tmp.dir</name> #用于存储hadoop运行过程中的临时文件的目录<value>file:/usr/local/hadoop/tmp</value>#指定目为/usr/local/hadoop/tmp,若不设置,Hadoop关闭后,系统默认设置的目录会被情况,下次在开启hadoop时,又需要运行hadoop format初始化,才能正常使用。<description>Abase for other temporary directories.</description></property><property><name>fs.defaultFS</name>         #设置fs.dfaultFS对应的值<value>hdfs://localhost:9000</value>#设置整个hdfs路径的逻辑名称为hdfs://localhost:9000</property>
</configuration>
  • gedit打开hdfs-site.xml
$ gedit ./etc/hadoop/hdfs-site.xml
<configuration>#在该语句对中添加如下语句,单机模式删除该语句对中的所有语句。<property><name>dfs.replication</name>#表示副本的数量<value>1</value>          #伪分布式其实只有一台机器,可以设置副本数量为1</property><property><name>dfs.namenode.name.dir</name>#表示本地磁盘目录,是存储fsimage文件的地方<value>file:/usr/local/hadoop/tmp/dfs/name</value>#设置其值</property><property><name>dfs.datanode.data.dir</name>#表示本地磁盘目录,HDFS数据存放block的地方<value>file:/usr/local/hadoop/tmp/dfs/data</value>#设置其对应的值</property>
</configuration>

设置完后保存。

1.3 配置完成后,执行NameNode的格式化

$ cd /usr/local/hadoop
$ ./bin/hdfs namenode -format

输出如下信息则成功。

1.4 开启NameNode和DataNode守护进程。

$ cd /usr/local/hadoop
$ ./sbin/start-dfs.sh

1.5 通过jps来判断是否成功启动,出现NameNode、DataNode、SecondaryName(若没有这个,则再次尝试启动)则成功。

1.6 单机模式读取的是本地数据,伪分布式读取的是HDFS上的数据。要使用HDFS,则需要在HDFS中创建用户目录。

$ ./bin/hdfs dfs -mkdir -p /user/hadoop

1.7 三种shell命令方式介绍

  • hadoop fs:适用于任何不同的文件系统,如本地文件系统和HDFS文件系统。
  • hadoop dfs:只适用于HDFS文件系统。
  • hdfs dfs:只适用于HDFS文件系统。

1.8 使用

  • 将./etc/hadoop中的.xml文件作为输入,复制到分布式文件系统中的/user/hadoop/input中。
  • 执行如下命令创建文件夹和复制文件
$ ./bin/hdfs dfs -mkdir input
$ ./bin/hdfs dfs -put ./etc/hadoop/*.xml input
  • 查看复制的文件目录
$ ./bin/hdfs dfs -ls input

1.9 伪分布式运行MapReduce作业与单机模式相同,伪分布式读取的HDFS中的文件。

$ ./bin/hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar grep input output 'dfs[a-z.]+'

1.10 查看输出文件,每次运行上述输出语句,需要删除output输出文件夹。

$ ./bin/hdfs dfs -cat output/*


1.11 hadoop的关闭与启动:下次启动无需运行NameNode初始化。

$ ./sbin/stop-dfs.sh
$ ./sbin/start-dfs.sh

1.12 hadoop命令目录:

  • hadoop所在目录为/usr/local/hadoop
  • hadoop命令在sbin文件夹中。
  • HDFS文件数据目录:/tmp/dfs/
  • input 输入文件目录

1.1.3 hadoop的访问:hadoop3.x版本的默认端口问9870,即通过localhost:9870可以访问启动的hadoop。

1.14 可能的错误

  • 若1.3 运行后出错Error: JAVA_HOME is not set and could not be found. 那么请保证JAVA_HOME配置正确。若还出错,则:
    转到hadoop的安装目录,修改配置文件“/usr/local/hadoop/etc/hadoop/hadoop-env.sh”中的“export JAVA_HOME=${JAVA_HOME}”为Java安装路径的具体地址,如“export JAVA_HOME=/usr/lib/jvm/default-java”。

  • 启动hadoop识,若出现类似“ssh: Could not resolve hostname xxx”的错误。
    这不是SSH的问题,可以通过Hadoop配置来解决。

先ctrl+c中断启动,然后在~./bashrc中添加如下语句

export HADOOP_HOME=/usr/local/hadoop#hadoop的安装目录
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
保存执行命令使配置生效。
source ~/.bashrc
在执行启动命令。
$ ./sbin/start-dfs.sh
  • Hadoop 运行程序时,输出目录不能存在,否则会提示错误 “org.apache.hadoop.mapred.FileAlreadyExistsException: Output directory hdfs://localhost:9000/user/hadoop/output already exists” ,需要删除output文件夹。

  • 可以通过命令设置,可以运行是自动删除output目录,避免复杂的其他操作。

Configuration conf = new Configuration();
Job job = new Job(conf);/* 删除输出目录 */
Path outputPath = new Path(args[1]);
outputPath.getFileSystem(conf).delete(outputPath, true);

源文档
http://dblab.xmu.edu.cn/blog/2441-2/#more-2441

hadoop伪分布式配置相关推荐

  1. Hadoop伪分布式配置和搭建,hadoop单机安装,wordcount实例测试,hadoop安装java目录怎么找,问题及问题解决方法

    Hadoop伪分布式配置和搭建,hadoop单机安装,wordcount实例测试,hadoop安装java目录怎么找,问题及问题解决方法 环境说明 系统:ubuntu18.04 主机名:test1 用 ...

  2. CentOS 7.4安装及Hadoop伪分布式配置(虚拟机:VMware)

    CentOS 7.4安装及Hadoop伪分布式配置(虚拟机:VMware) 准备 VMware虚拟机安装CentOs 7.4 虚拟机创建 CentOS 7.4安装 网络配置 JDK配置 Hadoop伪 ...

  3. Hadoop伪分布式配置试用+eclipse配置使用

    参考文档:http://hadoop.apache.org/common/docs/current/single_node_setup.html 环境:WinXP+cygwin+hadoop-0.20 ...

  4. hadoop伪分布式配置修改配置文件的时候无法保存(没有权限保存)

    使用gedit ./etc/hadoop/core-site.xml命令打开core-site.xml文件,这是只读方式打开文件,修改完后不能保存. 解决方法:命令前加sudo!

  5. linux hadoop etc目录,Hadoop系列——Linux下Hadoop的安装与伪分布式配置

    1 环境配置 1.1 JDK配置 在这里使用的是Oracle的JDK1.8. 1. 下载安装JDK 2. 配置环境变量 以上两个步骤不再展开赘述. 3. 验证JDK是否安装成功 分别使用 echo $ ...

  6. Hadoop安装教程_单机/伪分布式配置_Hadoop2.6.0/Ubuntu14.04

    给力星 追逐内心的平和 首页 笔记 搜藏 代码 音乐 关于 Hadoop安装教程_单机/伪分布式配置_Hadoop2.6.0/Ubuntu14.04 2014-08-09 (updated: 2016 ...

  7. Hadoop安装教4程_单机/伪分布式配置_Hadoop2.6.0/Ubuntu14.0

    Hadoop安装教4程_单机/伪分布式配置_Hadoop2.6.0/Ubuntu14.0 当开始着手实践 Hadoop 时,安装 Hadoop 往往会成为新手的一道门槛.尽管安装其实很简单,书上有写到 ...

  8. linux中jdk环境配置,安装MySQL,配置Hadoop伪分布式,配置hive环境

    1.修改虚拟机名称 vi /etc/hostname 进入命令模式输入[:wq]保存退出 2.修改虚拟机映射 vi /etc/hosts 输入端口号+虚拟机名称,保存退出[:wq] 3.重启虚拟机 r ...

  9. Hadoop安装教程_单机/伪分布式配置_CentOS6.4/Hadoop2.6.0

    本 Hadoop 教程由厦门大学数据库实验室出品,转载请注明.本教程适合于在 CentOS 6.x 系统中安装原生 Hadoop 2,适用于Hadoop 2.7.1, Hadoop 2.6.0 等版本 ...

最新文章

  1. metasploit 快速入门(三) 服务端漏洞利用
  2. js 移动端 滑块验证码插件_VUE技术详解,Vue.js从入门到精通
  3. SQL语句学习(二)
  4. 11、MySQL常见错误代码一览表
  5. 转jmeter --JDBC请求
  6. git永久保存账号密码
  7. IE本地网页弹出黄条“限制网页脚本”
  8. Eclipse快捷键-方便查找
  9. xp/win 7 系统搭建 Java环境
  10. Spring学习笔记:配置单数据源
  11. Python IDLE换行写,一行写不下,如何换行继续写
  12. eclipse adt sdk jdk的关系
  13. Python使用OpenCV二值化
  14. KETTLE 使用教程
  15. 没落的移动端原生开发
  16. android手机微信收藏功能实现,微信小程序收藏功能的实现代码
  17. 小程序scroll-view文字不能自动换行
  18. 人机工程学产品设计案例_产品设计|手持产品设计案例大放送,手持类的产品设计要点...
  19. 【四】狂神Java笔记-面向对象
  20. 利用USRP探索软件无线电(2)

热门文章

  1. oracle磁盘组故障组的概念,ASM中理解的问题大家帮忙!!(asm的外部冗余,为什么也有故障组呢?)...
  2. pcb外观维修_「维修案例」泰克AFG3021函数任意波形发生器故障维修
  3. 利用python创建学生管理系统软件代码赏析
  4. python xlrd使用_python处理Excel xlrd的简单使用
  5. 调研了下 AI 作曲,顺便做了期视频...快进来听歌!
  6. 论文浅尝 | Multimodal Few-Shot Learning with Frozen Language Models
  7. MYSQL返回指定时间间隔函数DATE_SUB和TO_DAYS详解
  8. 算法工程师笔试 -剑指offer-习题详细解答
  9. Android官方开发文档Training系列课程中文版:调用相机之控制相机
  10. Android官方开发文档Training系列课程中文版:分享简单数据之添加简单的分享行为