2019独角兽企业重金招聘Python工程师标准>>>

1.入门
HDFS 存储
MapReduce 计算
  Spark Flink
Yarn 资源作业调度

伪分布式部署
要求 环境配置文件 参数文件 ssh无密码 启动

jps命令
[hadoop@hadoop002 ~]$ jps
28288 NameNode   NN
27120 Jps
28410 DataNode   DN
28575 SecondaryNameNode  SNN

1.MapReduce job on Yarn
[hadoop@hadoop002 hadoop]$ cp mapred-site.xml.template mapred-site.xml
[hadoop@hadoop002 hadoop]$

Configure parameters as follows:
etc/hadoop/mapred-site.xml:

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>
etc/hadoop/yarn-site.xml:

<configuration>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
</configuration>
Start ResourceManager daemon and NodeManager daemon:
  $ sbin/start-yarn.sh

open web: http://47.75.249.8:8088/

3.运行MR JOB
Linux 文件存储系统 mkdir ls
HDFS 分布式文件存储系统
-format 
hdfs dfs -???

Make the HDFS directories required to execute MapReduce jobs:
  $ bin/hdfs dfs -mkdir /user
  $ bin/hdfs dfs -mkdir /user/<username>
Copy the input files into the distributed filesystem:
  $ bin/hdfs dfs -put etc/hadoop input
Run some of the examples provided:
  $ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.0-cdh5.7.0.jar grep input output 'dfs[a-z.]+'
Examine the output files:
Copy the output files from the distributed filesystem to the local filesystem and examine them:

$ bin/hdfs dfs -get output output
  $ cat output/*
or

View the output files on the distributed filesystem:

$ bin/hdfs dfs -cat output/*

-------------------------------------------------
bin/hdfs dfs -mkdir /user/hadoop/input
bin/hdfs dfs -put etc/hadoop/core-site.xml /user/hadoop/input

bin/hadoop jar \
share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.0-cdh5.7.0.jar \
grep \
/user/hadoop/input \
/user/hadoop/output \
'fs[a-z.]+'

4.HDFS三个进程启动以hadoop002启动
NN: core-site.xml  fs.defaultFS参数
DN: slaves
SNN:

<property>
    <name>dfs.namenode.secondary.http-address</name>
    <value>hadoop002:50090</value>
</property>
<property>
    <name>dfs.namenode.secondary.https-address</name>
    <value>hadoop002:50091</value>
</property>

5.jps
[hadoop@hadoop002 hadoop-2.6.0-cdh5.7.0]$ jps
16188 DataNode
16379 SecondaryNameNode
16566 Jps
16094 NameNode
[hadoop@hadoop002 hadoop-2.6.0-cdh5.7.0]$

5.1 位置
[hadoop@hadoop002 hadoop-2.6.0-cdh5.7.0]$ which jps
/usr/java/jdk1.7.0_80/bin/jps
[hadoop@hadoop002 hadoop-2.6.0-cdh5.7.0]$

5.2 其他用户
[root@hadoop002 ~]# jps
16188 -- process information unavailable
16607 Jps
16379 -- process information unavailable
16094 -- process information unavailable
[root@hadoop002 ~]#

[root@hadoop002 ~]# useradd jepson
[root@hadoop002 ~]# su - jepson
[jepson@hadoop002 ~]$ jps
16664 Jps
[jepson@hadoop002 ~]$

process information unavailable 
真正可用的

[root@hadoop002 ~]# kill -9 16094
[root@hadoop002 ~]# 
[root@hadoop002 ~]# jps
16188 -- process information unavailable
16379 -- process information unavailable
16702 Jps
16094 -- process information unavailable
[root@hadoop002 ~]# 
[root@hadoop002 ~]# ps -ef|grep 16094
root     16722 16590  0 22:19 pts/4    00:00:00 grep 16094
[root@hadoop002 ~]# 
process information unavailable 
真正不可用的

正确的做法: process information unavailable 
1.找到进程号 pid
2.ps -ef|grep pid 是否存在
3.假如存在,
  第二步是可以知道哪个用户运行这个进程,
  su - 用户,进去查看

假如删除rm -f /tmp/hsperfdata_${user}/pid文件
  进程不挂,但是jps命令不显示了,所依赖的脚本都会有问题

4.假如不存在,怎样清空残留信息
rm -f /tmp/hsperfdata_${user}/pid文件
   
http://blog.itpub.net/30089851/viewspace-1994344/

6.补充命令
ssh root@ip -p 22
ssh root@47.75.249.8 date

rz sz

两个Linux系统怎样传输呢?
hadoop000-->hadoop002
[ruoze@hadoop000 ~]$ scp test.log  root@47.75.249.8:/tmp/
将当前的Linux系统文件 scp到 远程的机器上

hadoop000<--hadoop002
[ruoze@hadoop002 ~]$ scp test.log  root@hadoop000:/tmp/

但是 hadoop002属于生产机器 你不可登陆
scp root@47.75.249.8:/tmp/test.log /tmp/rz.log

但是: 生产上 绝对不可能给你密码

ssh多台机器互相信任关系
http://blog.itpub.net/30089851/viewspace-1992210/
坑:
scp 传输 pub文件
/etc/hosts文件里面配置多台机器的ip和name

--------------------------------------------
作业:
1.Yarn伪分布式部署 +1 blog
2.MR JOB +1 blog
3.HDFS进程启动 hadoop002 + 1blog
4.jps整理为1blog
5.再装1台VM虚拟机 
ssh多台信任关系  1blog

6.拓展:
rm -rf ~/.ssh
A机器无密码访问B机器,请问谁的pub文件拷贝给谁?

转载于:https://my.oschina.net/u/3862440/blog/2246054

hadoop学习笔记2相关推荐

  1. Hadoop学习笔记一 简要介绍

    Hadoop学习笔记一 简要介绍 这里先大致介绍一下Hadoop.     本文大部分内容都是从官网Hadoop上来的.其中有一篇介绍HDFS的pdf文档,里面对Hadoop介绍的比较全面了.我的这一 ...

  2. Hadoop学习笔记(1) ——菜鸟入门

     Hadoop学习笔记(1) --菜鸟入门 Hadoop是什么?先问一下百度吧: [百度百科]一个分布式系统基础架构,由Apache基金会所开发.用户能够在不了解分布式底层细节的情况下.开发分布式 ...

  3. Hadoop学习笔记(1)

    原文:http://www.cnblogs.com/zjfstudio/p/3859704.html Hadoop学习笔记(1) --菜鸟入门 Hadoop是什么?先问一下百度吧: [百度百科]一个分 ...

  4. Hadoop学习笔记—18.Sqoop框架学习

    Hadoop学习笔记-18.Sqoop框架学习 一.Sqoop基础:连接关系型数据库与Hadoop的桥梁 1.1 Sqoop的基本概念 Hadoop正成为企业用于大数据分析的最热门选择,但想将你的数据 ...

  5. Hadoop学习笔记—20.网站日志分析项目案例(一)项目介绍

    Hadoop学习笔记-20.网站日志分析项目案例(一)项目介绍 网站日志分析项目案例(一)项目介绍:当前页面 网站日志分析项目案例(二)数据清洗:http://www.cnblogs.com/edis ...

  6. Hadoop学习笔记(8) ——实战 做个倒排索引

    Hadoop学习笔记(8) --实战 做个倒排索引 倒排索引是文档检索系统中最常用数据结构.根据单词反过来查在文档中出现的频率,而不是根据文档来,所以称倒排索引(Inverted Index).结构如 ...

  7. Hadoop学习笔记—4.初识MapReduce

    一.神马是高大上的MapReduce MapReduce是Google的一项重要技术,它首先是一个 编程模型 ,用以进行大数据量的计算.对于大 数据量的计算,通常采用的处理手法就是并行计算.但对许多开 ...

  8. Hadoop学习笔记—11.MapReduce中的排序和分组

    Hadoop学习笔记-11.MapReduce中的排序和分组 一.写在之前的 1.1 回顾Map阶段四大步骤 首先,我们回顾一下在MapReduce中,排序和分组在哪里被执行: 从上图中可以清楚地看出 ...

  9. Hadoop学习笔记—15.HBase框架学习(基础知识篇)

    Hadoop学习笔记-15.HBase框架学习(基础知识篇) HBase是Apache Hadoop的数据库,能够对大型数据提供随机.实时的读写访问.HBase的目标是存储并处理大型的数据.HBase ...

  10. Hadoop学习笔记—10.Shuffle过程那点事儿

    Hadoop学习笔记-10.Shuffle过程那点事儿 一.回顾Reduce阶段三大步骤 在第四篇博文<初识MapReduce>中,我们认识了MapReduce的八大步骤,其中在Reduc ...

最新文章

  1. Python3.2 --- Print函数用法
  2. mac 远程桌面提示: 证书或相关链无效
  3. 链接和作用域2 - C++快速入门43
  4. mysql 创建外键索引吗_索引-MySQL无法创建外键约束
  5. linux音频框架分析,Alsa音频子系统Codec---al5623.c内核代码框架分析
  6. python逐行读取数据时出现错误_Python利用逐行读取readline()打印出现空行的解决办法...
  7. 广联达报错access_广联达土建算量软件错误提示大全及解决方法(持续更新至20170418)...
  8. 计算机信息检索 02139
  9. java 水晶按钮_C#中水晶按钮的程序生成
  10. 抑郁症可以学计算机吗,AI能从人的话语中察觉到抑郁症吗?目前还为时过早
  11. 阿里巴巴内部Java成长笔记,首次曝光!
  12. 猪哥学习群直播第一期:人工智能在银行电信企业中的应用
  13. 想炒期货是如何开户的?
  14. 2018互联网月饼哪家强?阿里有情怀、腾讯最实在、咪咕最暖萌、联想最简单粗暴......
  15. idc机房建设费用_【技术知乎】数据中心成本与机房等级的关系
  16. 【深度学习】语义分割-综述(卷积)
  17. python英寸与厘米交互_运用python实现英制单位英寸与公制单位厘米互换
  18. mac 使用shell脚本实现快捷命令打开文件
  19. 金融平台系统软件整体架构
  20. [CF852H]Bob and stages

热门文章

  1. 074_html5音频
  2. 命名规则标识符 unix_关于全局唯一标识符
  3. mysql5.0修改字符集,查看mysql字符集及修改表结构
  4. php设置文件权限问题,关于.user.ini以及php访问上级文件权限问题
  5. gtp怎么安装系统_UEFI+GTP模式下使用GHO文件安装WIN7或WIN8系统图文教程详解
  6. JavaWeb-JavaMail邮件开发
  7. 关于MVVM与MVC
  8. web访问hive速度怎么样_使用Hive的web界面:HWI
  9. 软考高项之风险管理-攻坚记忆
  10. linux x下载工具,Linux下强大的Axel下载工具