尝试运行mapreduce例子
先进到mapreduce文件夹中

(上次忘记了配hadoop环境变量,现在补上)


从本地上传一个文本文件到hdfs的/wordcount/input目录下
创建input文件夹:
hadoop fs -mkdir -p /wordcount/input
删除的话是用:
hadoop fs -rmr /wordcount
查看目录:
hadoop fs -ls /
把文件放进input中:
hadoop fs -put README.txt /wordcount/input

运行一个mapreduce程序
进入到mapreduce文件夹中
cd /apps/hadoop-2.6.4/share/hadoop/mapreduce
运行示例程序
hadoop jar hadoop-mapreduce-examples-2.6.4.jar wordcount /wordcount/input /wordcount/output
程序起名叫wordcount 把input中文件统计结果输出到output中



计算结束,看看结果
hadoop fs -get /wordcount/output/part-r-00000把文件dump到本地
然后查看文件
cat part-r-00000

这个测试文件不太好看着有点问题,我们重新换一个
新建一个text1.txt

测试文档16MB,然后写一个shell脚本循环增加这些内容让文件大一些
vi t.sh
while true
do
cat text1.txt>>text2.txt
done

sh t.sh 执行脚本
中断sh进程用 ps -ef 得到PID 然后kill -9 PID
ls-lh查看文件大小
已经1.3G了。。可以了
开始执行任务
hadoop fs -mkdir -p /wordcount/input1
hadoop fs -put text2.txt /wordcount/input1
文件太大,我电脑卡死了。
还是用text1文件吧 也有16MB
hadoop fs -mkdir -p /wordcount/input
hadoop fs -put text1.txt /wordcount/input
hadoop jar hadoop-mapreduce-examples-2.6.4.jar wordcount /wordcount/input /wordcount/output

统计结果:

Hadoop fs命令集合:

1,Hadoop fs –fs [local | <file system URI>]:声明hadoop使用的文件系统,如果不声明的话,使用当前配置文件配置的,按如下顺序查找:hadoop jar里的hadoop-default.xml->$HADOOP_CONF_DIR下的hadoop-default.xml->$HADOOP_CONF_DIR下的hadoop-site.xml。使用local代表将本地文件系统作为hadoop的DFS。如果传递uri做参数,那么就是特定的文件系统作为DFS。
2,hadoop fs –ls <path>:等同于本地系统的ls,列出在指定目录下的文件内容,支持pattern匹配。输出格式如filename(full path)   <r n>  size.其中n代表replica的个数,size代表大小(单位bytes)。
3,hadoop fs –lsr <path>:递归列出匹配pattern的文件信息,类似ls,只不过递归列出所有子目录信息。
4,hadoop fs –du <path>:列出匹配pattern的指定的文件系统空间总量(单位bytes),等价于unix下的针对目录的du –sb <path>/*和针对文件的du –b <path> ,输出格式如name(full path)  size(in bytes)。
5,hadoop fs –dus <path>:等价于-du,输出格式也相同,只不过等价于unix的du -sb。
6,hadoop fs –mv <src> <dst>:将制定格式的文件 move到指定的目标位置。当src为多个文件时,dst必须是个目录。
7,hadoop fs –cp <src> <dst>:拷贝文件到目标位置,当src为多个文件时,dst必须是个目录。
8,hadoop fs –rm [-skipTrash] <src>:删除匹配pattern的指定文件,等价于unix下的rm <src>。
9,hadoop fs –rmr [skipTrash] <src>:递归删掉所有的文件和目录,等价于unix下的rm –rf <src>。
10,hadoop fs –rmi [skipTrash] <src>:等价于unix的rm –rfi <src>。
11,hadoop fs –put <localsrc> … <dst>:从本地系统拷贝文件到DFS。
12,hadoop fs –copyFromLocal <localsrc> … <dst>:等价于-put。
13,hadoop fs –moveFromLocal <localsrc> … <dst>:等同于-put,只不过源文件在拷贝后被删除。
14,hadoop fs –get [-ignoreCrc] [-crc] <src> <localdst>:从DFS拷贝文件到本地文件系统,文件匹配pattern,若是多个文件,则dst必须是目录。
15,hadoop fs –getmerge <src> <localdst>:顾名思义,从DFS拷贝多个文件、合并排序为一个文件到本地文件系统。
16,hadoop fs –cat <src>:展示文件内容。
17,hadoop fs –copyToLocal [-ignoreCrc] [-crc] <src> <localdst>:等价于-get。
18,hadoop fs –mkdir <path>:在指定位置创建目录。
19,hadoop fs –setrep [-R] [-w] <rep> <path/file>:设置文件的备份级别,-R标志控制是否递归设置子目录及文件。
20,hadoop fs –chmod [-R] <MODE[,MODE]…|OCTALMODE> PATH…:修改文件的权限,-R标记递归修改。MODE为a+r,g-w,+rwx等,OCTALMODE为755这样。
21,hadoop fs -chown [-R] [OWNER][:[GROUP]] PATH…:修改文件的所有者和组。-R表示递归。
22,hadoop fs -chgrp [-R] GROUP PATH…:等价于-chown … :GROUP …。
23,hadoop fs –count[-q] <path>:计数文件个数及所占空间的详情,输出表格的列的含义依次为:DIR_COUNT,FILE_COUNT,CONTENT_SIZE,FILE_NAME或者如果加了-q的话,还会列出QUOTA,REMAINING_QUOTA,SPACE_QUOTA,REMAINING_SPACE_QUOTA。

大数据分布式集群搭建(6)相关推荐

  1. 大数据分布式集群搭建(1)

    在学习了几天的hadoop分布式集群搭建之后想写写文章记录一下一路以来遇到的困难和解决方案. 闲话不多说,进入正题. 一.环境及准备 因为只有一台电脑,所以需要用虚拟机来模拟环境. 本地机器用到软件: ...

  2. 大数据分布式集群搭建(5)

    下面我们来操作大数据中的重头戏Hadoop 1. HADOOP背景介绍 1.1 什么是HADOOP 1.HADOOP是apache旗下的一套开源软件平台 2.HADOOP提供的功能:利用服务器集群,根 ...

  3. 大数据分布式集群搭建(4)

    下面我们准备安装zookeeper 一.Zookeeper介绍(动物园管理) Zookeeper是一个分布式协调服务:就是为用户的分布式应用程序提供协调服务 1.zookeeper是为别的分布式程序服 ...

  4. 大数据分布式集群搭建(7)

    HBASE --先部署一个zookeeper集群 (1)上传hbase安装包 (2)解压 (3)配置hbase集群,要修改3个文件 注意:要把hadoop的hdfs-site.xml和core-sit ...

  5. 大数据分布式集群搭建(3)

    下面开始安装redis 首先介绍一下nosql NoSQL:一类新出现的数据库(not only sql),它的特点: 1.不支持SQL语法 2.存储结构跟传统关系型数据库中的那种关系表完全不同,no ...

  6. 大数据分布式集群搭建(9)

    Sqoop相比于其他的工具搭建起来很容易 需要用到下面的东西 sqoop-1.4.6.tar.gz sqoop-1.4.6.jar mysql-connector-java-5.1.21.jar 首先 ...

  7. 大数据分布式集群搭建(8)

    安装hive Hive只在一个节点上安装即可,这里在主节点hdp01上面安装 首先上传安装包apache-hive-1.2.1-bin.tar.gz 解压到/apps/下面 如图所示 下一步安装Mys ...

  8. 大数据分布式集群搭建(插曲)

    一.SFTP服务配置 如何用手上的机器来连接linux并通过ftp端口交互文件呢 这里需要在linux上面安装ftp服务端 首先检查安装vsftpd软件 使用如下命令#rpm -qa |grep vs ...

  9. 大数据分布式集群搭建(2)

    之前已经配置好了初始化的内容,接下来开始安装三神器(jdk,tomcat,mysql) 一.JDK安装 首先通过sftp传文件到linux上面,Alt+P键调出sftp 拖拽文件进去即可,注意不要有中 ...

最新文章

  1. 通过yum安装配置lamp
  2. Python 玩出花儿,把罗小黑养在自己桌面
  3. 微信小程序开发文档链接
  4. mysql多数据源切换_Springboot项目实现Mysql多数据源切换的完整实例
  5. JPA关系映射之one-to-many和many-to-one
  6. Java怎么学?一些非常有用的书单和网站推荐
  7. Linux系统编程11:进程入门之详细阐述进程的一些状态区分僵尸状态和孤儿状态动图演示
  8. mysql日期格式转换_MySQL日期格式转换
  9. sql 操作常用操作语句 新增、修改字段等
  10. avr单片机流水灯程序c语言,AVR单片机学习(四)C语言的流水灯验证
  11. python用于绘制数据图表的是_python图表绘制
  12. 动手学习深度学习keras版——从零开始实现Vnet 2D版
  13. Gauss 求积公式及代码
  14. su 与 su - 的区别
  15. 牛客练习赛53E 老瞎眼 pk 小鲜肉(线段树)
  16. 【数理称谓】数术记遗
  17. c语言“%”(取余)运算,特别是负数时该怎么算
  18. 2020到2021计算机试题,2020广东计算机一级考试试题和答案【2021年整理】-20210715002405.docx-原创力文档...
  19. java 读取excel表格_Java读取excel表格(原理+实现)
  20. 阅读开源Python脚本学习笔记1,之python异常

热门文章

  1. Nat. Commun. | msiPL:质谱数据分析的新工具
  2. RDKit | 基于主成分分析可视化(DrugBank)类药性的化学空间
  3. Git 删除已经提交的文件(Delete commits from a branch in Git)
  4. mysql包含哪几部分_sql语言包含哪些部分
  5. 在 Linux 上给用户赋予指定目录的读写权限
  6. R包animalcules-一键式交互探索微生物组数据
  7. MPB:湖南师大尹佳组-乳酸菌的耐热实验
  8. Cell二连发 | 广东CDC/耶鲁大学利用纳米孔测序揭示中/美新冠病毒基因组流行病学传播规律...
  9. 专家点评Science:中英合作揭示拟南芥三萜化合物特异调控根系微生物组
  10. Cell子刊:根瘤菌微生物群落的模块化特征及其与共生根瘤菌的进化关系