大数据分布式集群搭建（6）

尝试运行mapreduce例子
先进到mapreduce文件夹中

（上次忘记了配hadoop环境变量，现在补上）

从本地上传一个文本文件到hdfs的/wordcount/input目录下
创建input文件夹：
hadoop fs -mkdir -p /wordcount/input
删除的话是用：
hadoop fs -rmr /wordcount
查看目录：
hadoop fs -ls /
把文件放进input中：
hadoop fs -put README.txt /wordcount/input

运行一个mapreduce程序
进入到mapreduce文件夹中
cd /apps/hadoop-2.6.4/share/hadoop/mapreduce
运行示例程序
hadoop jar hadoop-mapreduce-examples-2.6.4.jar wordcount /wordcount/input /wordcount/output
程序起名叫wordcount 把input中文件统计结果输出到output中

计算结束，看看结果
hadoop fs -get /wordcount/output/part-r-00000把文件dump到本地
然后查看文件
cat part-r-00000

这个测试文件不太好看着有点问题，我们重新换一个
新建一个text1.txt

测试文档16MB，然后写一个shell脚本循环增加这些内容让文件大一些
vi t.sh
while true
do
cat text1.txt>>text2.txt
done

sh t.sh 执行脚本
中断sh进程用 ps -ef 得到PID 然后kill -9 PID
ls-lh查看文件大小
已经1.3G了。。可以了
开始执行任务
hadoop fs -mkdir -p /wordcount/input1
hadoop fs -put text2.txt /wordcount/input1
文件太大，我电脑卡死了。
还是用text1文件吧也有16MB
hadoop fs -mkdir -p /wordcount/input
hadoop fs -put text1.txt /wordcount/input
hadoop jar hadoop-mapreduce-examples-2.6.4.jar wordcount /wordcount/input /wordcount/output

统计结果：

Hadoop fs命令集合：

1，Hadoop fs –fs [local | <file system URI>]：声明hadoop使用的文件系统，如果不声明的话，使用当前配置文件配置的，按如下顺序查找：hadoop jar里的hadoop-default.xml->$HADOOP_CONF_DIR下的hadoop-default.xml->$HADOOP_CONF_DIR下的hadoop-site.xml。使用local代表将本地文件系统作为hadoop的DFS。如果传递uri做参数，那么就是特定的文件系统作为DFS。
2，hadoop fs –ls <path>：等同于本地系统的ls，列出在指定目录下的文件内容，支持pattern匹配。输出格式如filename(full path)   <r n>  size.其中n代表replica的个数，size代表大小（单位bytes）。
3，hadoop fs –lsr <path>：递归列出匹配pattern的文件信息，类似ls，只不过递归列出所有子目录信息。
4，hadoop fs –du <path>：列出匹配pattern的指定的文件系统空间总量（单位bytes），等价于unix下的针对目录的du –sb <path>/*和针对文件的du –b <path> ，输出格式如name(full path)  size(in bytes)。
5，hadoop fs –dus <path>：等价于-du，输出格式也相同，只不过等价于unix的du -sb。
6，hadoop fs –mv <src> <dst>：将制定格式的文件 move到指定的目标位置。当src为多个文件时，dst必须是个目录。
7，hadoop fs –cp <src> <dst>：拷贝文件到目标位置，当src为多个文件时，dst必须是个目录。
8，hadoop fs –rm [-skipTrash] <src>：删除匹配pattern的指定文件，等价于unix下的rm <src>。
9，hadoop fs –rmr [skipTrash] <src>：递归删掉所有的文件和目录，等价于unix下的rm –rf <src>。
10，hadoop fs –rmi [skipTrash] <src>：等价于unix的rm –rfi <src>。
11，hadoop fs –put <localsrc> … <dst>：从本地系统拷贝文件到DFS。
12，hadoop fs –copyFromLocal <localsrc> … <dst>：等价于-put。
13，hadoop fs –moveFromLocal <localsrc> … <dst>：等同于-put，只不过源文件在拷贝后被删除。
14，hadoop fs –get [-ignoreCrc] [-crc] <src> <localdst>：从DFS拷贝文件到本地文件系统，文件匹配pattern，若是多个文件，则dst必须是目录。
15，hadoop fs –getmerge <src> <localdst>：顾名思义，从DFS拷贝多个文件、合并排序为一个文件到本地文件系统。
16，hadoop fs –cat <src>：展示文件内容。
17，hadoop fs –copyToLocal [-ignoreCrc] [-crc] <src> <localdst>：等价于-get。
18，hadoop fs –mkdir <path>：在指定位置创建目录。
19，hadoop fs –setrep [-R] [-w] <rep> <path/file>：设置文件的备份级别，-R标志控制是否递归设置子目录及文件。
20，hadoop fs –chmod [-R] <MODE[,MODE]…|OCTALMODE> PATH…：修改文件的权限，-R标记递归修改。MODE为a+r,g-w,+rwx等，OCTALMODE为755这样。
21，hadoop fs -chown [-R] [OWNER][:[GROUP]] PATH…：修改文件的所有者和组。-R表示递归。
22，hadoop fs -chgrp [-R] GROUP PATH…：等价于-chown … :GROUP …。
23，hadoop fs –count[-q] <path>：计数文件个数及所占空间的详情，输出表格的列的含义依次为：DIR_COUNT,FILE_COUNT,CONTENT_SIZE,FILE_NAME或者如果加了-q的话，还会列出QUOTA,REMAINING_QUOTA,SPACE_QUOTA,REMAINING_SPACE_QUOTA。

大数据分布式集群搭建（6）相关推荐

大数据分布式集群搭建（1）
在学习了几天的hadoop分布式集群搭建之后想写写文章记录一下一路以来遇到的困难和解决方案. 闲话不多说,进入正题. 一.环境及准备因为只有一台电脑,所以需要用虚拟机来模拟环境. 本地机器用到软件: ...
大数据分布式集群搭建（5）
下面我们来操作大数据中的重头戏Hadoop 1. HADOOP背景介绍 1.1 什么是HADOOP 1.HADOOP是apache旗下的一套开源软件平台 2.HADOOP提供的功能:利用服务器集群,根 ...
大数据分布式集群搭建（4）
下面我们准备安装zookeeper 一.Zookeeper介绍(动物园管理) Zookeeper是一个分布式协调服务:就是为用户的分布式应用程序提供协调服务 1.zookeeper是为别的分布式程序服 ...
大数据分布式集群搭建（7）
HBASE --先部署一个zookeeper集群 (1)上传hbase安装包 (2)解压 (3)配置hbase集群,要修改3个文件注意:要把hadoop的hdfs-site.xml和core-sit ...
大数据分布式集群搭建（3）
下面开始安装redis 首先介绍一下nosql NoSQL:一类新出现的数据库(not only sql),它的特点: 1.不支持SQL语法 2.存储结构跟传统关系型数据库中的那种关系表完全不同,no ...
大数据分布式集群搭建（9）
Sqoop相比于其他的工具搭建起来很容易需要用到下面的东西 sqoop-1.4.6.tar.gz sqoop-1.4.6.jar mysql-connector-java-5.1.21.jar 首先 ...
大数据分布式集群搭建（8）
安装hive Hive只在一个节点上安装即可,这里在主节点hdp01上面安装首先上传安装包apache-hive-1.2.1-bin.tar.gz 解压到/apps/下面如图所示下一步安装Mys ...
大数据分布式集群搭建（插曲）
一.SFTP服务配置如何用手上的机器来连接linux并通过ftp端口交互文件呢这里需要在linux上面安装ftp服务端首先检查安装vsftpd软件使用如下命令#rpm -qa |grep vs ...
大数据分布式集群搭建（2）
之前已经配置好了初始化的内容,接下来开始安装三神器(jdk,tomcat,mysql) 一.JDK安装首先通过sftp传文件到linux上面,Alt+P键调出sftp 拖拽文件进去即可,注意不要有中 ...

大数据分布式集群搭建（6）

大数据分布式集群搭建（6）相关推荐

最新文章

热门文章