前言

Hadoop从存储上来说,是相似于冗余磁盘阵列(RAID)的存储方式。将数据分散存储并提供以提供吞吐量,它的存储系统就是HDFS(Hadoop Distuibute Fils System)。从计算上来说,它通过MapReduce模型,将大数据的计算分发到多台计算机上完毕,再将结果合并,降低计算的时间。

Hadoop适合于:

1、超大数据的计算。

2、一次写入、多次读取的模式;

3、能够跑在普通的硬件上。

Hadoop不适合:

1、低延迟的数据訪问。它是为高数据吞吐量应用优化的;

2、大量的小文件

Hadoopclient须要和namenode进行交互,而namenode中存放的是datanode的文件属性,且都是在内存中,假设小文件过多。namenode是存放不了的;

3、多用户写入,随意改动文件。

Hadoop适合于一次计算,多次读取的场景,如搜索引擎,仅仅支持随机读取不支持随机写入,如Hadoop和Lucene的集成就不能够直接集成,由于Lucene支持随机写入。

本文将从使用的角度上谈了怎样搭建Hadoop、怎样配置Hadoop、怎样验证Hadoop及在Hadoop上面运行计算。以及可能会遇到些什么样的问题。

一、Hadoop环境搭建

由于Hadoop须要在Linux运行。而且Hadoop是基于Java的,在继续进行以下的步骤之前,请确认你已经准备好Linux操作系统以及Java 6或以上版本号,而且已经正确的设置了JAVA_HOME。

1、下载Hadoop

搭建Hadpp的版本号为1.2.1 下载地址为:http://apache.fayea.com/apache-mirror/hadoop/common/hadoop-1.2.1/

2、安装Hadoop

解压缩Hadoop到随意文件夹。我当前的Hadoop是将其解压到文件夹/usr/local/hadoop-1.2.1,并在/etc/profile中设置好环境变量HADOOP_HOME(这个变量不是必须的,在1.2.1已经是Deprecated了,这里我之所以设置,还是为了方便)。以及将$HADOOP_HOME/bin文件夹添加到PATH中,这样我们就能够在随意地方运行hadoop命令了,为了使用上的方便。再给”hadoop fs”设一个名为hdfs的alias方便使用,以下是我机器上/etc/profile添加的内容:

export JAVA_HOME=/usr/local/jdk1.6.0_33

export HADOOP_HOME=/usr/local/hadoop-1.2.1

export CLASSPATH=.:$JAVA_HOME/lib/tools.jar:$JAVA_HOME/lib/dt.jar

PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin

#Alias for hadoop

alias hdfs='hadoop fs'

注:该文件的编辑须要root权限,改动完毕后,假设想马上生效,须要通过source命令操作一下:

source /etc/profile

否则就仅仅有退出又一次登陆才会生效。

3、准备ssh

Hadoop须要通过SSH和其他计算server进行沟通。所以首先要确定本机或者是其他Hadoop计算server。是否都已经安装了ssh。

(1)、确定系统是否安装了ssh和ssh-keygey

能够通过which命令来确认

which ssh

which ssh-keygen

假设出现

/usr/bin/which: no ssh in (/usr/.....)则表示系统里面没有安装SSH服务。能够通过www.openssh.com下载安装

(2)、公布公钥证书

运行例如以下命令:

ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa

在~/.ssh/ 文件夹会生成id_rsa和id_rsa.pub两个文件。将id_rsa.pub复制一份在~/.ssh/文件夹下,并重命名为authorized_keys,假设是单机搭建伪分布式。此时ssh的准备工作已经完毕了,假设使用全分布式环境,那么须要将authorized_keys(或authorized_keys中的内容追加到须要无password登陆的server的~/.ssh/authorized_keys文件里)及id_rsa(或id_rsa中的内容追加到须要无password登陆的server的~/.ssh/id_rsa文件里)两个文件复制到各台分布式slave机器的“~/.ssh文件夹中”中,这样随意两台机器之间互相通过ssh訪问。都不须要输入password了。假设仅仅是复制到authorized_keys到slave机器中,就仅仅能够实现主到从的不输password訪问。

注:假设须要远程登陆的server上还没有.ssh文件夹。那么就在登陆用户的文件夹下新建.ssh文件夹,权限至少设置成744。假设.ssh文件夹下没有authorized_keys文件。也新建该文件。并将其权限设置为644。

(3)測试登陆验证

在本例中。採用的是在单机中搭建伪分布式系统,通过例如以下ssh命令尝试登陆:

ssh localhost

ssh 127.0.0.1

假设不再提示输入password,直接登陆成功。那么SSH登陆就设置成功了。

Hadoop入门进阶步步高(一)-环境准备相关推荐

  1. Hadoop入门进阶步步高(三-配置Hadoop

    分享一下我老师大神的人工智能教程!零基础,通俗易懂!http://blog.csdn.net/jiangjunshow 也欢迎大家转载本篇文章.分享知识,造福人民,实现我们中华民族伟大复兴! 三.配置 ...

  2. Hadoop入门进阶步步高(二)-目录介绍

    分享一下我老师大神的人工智能教程!零基础,通俗易懂!http://blog.csdn.net/jiangjunshow 也欢迎大家转载本篇文章.分享知识,造福人民,实现我们中华民族伟大复兴! 二.Ha ...

  3. Hadoop入门进阶步步高(六-Hadoop1.x与Hadoop2的区别

    分享一下我老师大神的人工智能教程!零基础,通俗易懂!http://blog.csdn.net/jiangjunshow 也欢迎大家转载本篇文章.分享知识,造福人民,实现我们中华民族伟大复兴! 六.Ha ...

  4. Hadoop入门进阶步步高(四)-测试Hadoop

    2019独角兽企业重金招聘Python工程师标准>>> 四.测试Hadoop 一个简单的求每年温度最大值的程序. 1.准备两个文本测试数据 准备两个名为data1.txt及data2 ...

  5. Hadoop入门(四)——模板虚拟机环境准备(图文详解步骤2021)

    Hadoop入门(四)--模板虚拟机环境准备(图文详解步骤2021) 系列文章传送门 这个系列文章传送门: Hadoop入门(一)--CentOS7下载+VM上安装(手动分区)图文步骤详解(2021) ...

  6. (转)Hadoop入门进阶课程

    http://blog.csdn.net/yirenboy/article/details/46800855 1.Hadoop介绍 1.1Hadoop简介 Apache Hadoop软件库是一个框架, ...

  7. Hadoop入门(二)——VMware虚拟网络设置+Windows10的IP地址配置+CentOS7静态IP设置(图文详解步骤2021)

    Hadoop入门(二)--VMware虚拟网络设置+Windows10的IP地址配置+CentOS7静态IP设置(图文详解步骤2021) 之前在上一篇文章中讲述了 CentOS7下载+VM上安装(手动 ...

  8. Hadoop入门基础教程 Hadoop之完全分布式环境搭建

    上一篇我们完成了Hadoop伪分布式环境的搭建,伪分布式模式也叫单节点集群模式, NameNode.SecondaryNameNode.DataNode.JobTracker.TaskTracker所 ...

  9. [ hadoop ] hadoop入门 : 组成架构.环境搭建.运行模式

    1 大数据概论 概念: 指无法在一定时间范围内用常规软件工具进行捕捉.管理和处理的数据集合,是需要新处理模式才能具有更强的决策力.洞察发现力和流程优化能力的海量.高增长率和多样化的信息资产. 需求: ...

最新文章

  1. (血和泪的成果)使用PageHelper分页插件进行后台分页
  2. 电脑的发展史_电脑比手工刺绣效率提高1000倍!2019中国鲁绣传承创新大会在阳信举办...
  3. html怎么做半圆形按钮,css3做出半圆弧线
  4. 手把手教你用jQuery实现手动自动轮播
  5. Java网络编程二:Socket详解
  6. Legacy(线段树优化建边跑Dijkstra)
  7. P3620-[APIO/CTSC2007]数据备份【贪心,堆,链表】
  8. [原创]java获取word里面的文本
  9. 深入浅出.NET泛型编程(1)
  10. java实现arp断网攻击,可攻击局域网内所有的主机
  11. android 定时请求(两种实现方式)
  12. 遗传算法-附代码注释
  13. 我的世界服务器怎么弄vip系统,我的世界vip插件怎么用?我的世界vip插件使用方法...
  14. MMKV_mmkv之基本介绍
  15. 《打开量化交易的黑箱》读书笔记
  16. SPSS——随机抽样
  17. java swing 图片gif_Java swing显示gif
  18. 执行Hive SQL时报错:Map operator initialization failed
  19. Qt的对话框与窗口--标准的对话框
  20. 给Win10系统添加多个桌面两种操作方法

热门文章

  1. Mac 配置支持 opengl 的 opencv 4.2
  2. Java实现阶乘运算
  3. java 进程描述_java 进程和线程
  4. java 日期的工具类_java 日期时间工具类
  5. 神策数据王灼洲 徐缓:ID-Mapping 用户打通那些事儿
  6. 神策数据入选《2020 爱分析·数据智能厂商全景报告》
  7. ACK容器服务发布virtual node addon,快速部署虚拟节点提升集群弹性能力
  8. html 5 video audio
  9. 【Touchinput 】触摸和输入 概述(1)
  10. 手把手系列:(一)用Benchmarksql测试Oracle数据库性能