分布式文件系统Hadoop
官方文档地址http://hadoop.apache.org/common/docs/r1.0.3/
http://www.tbdata.org/
下载到:jdk-6u26-linux-x64.bin and hadoop-1.0.3.tar.gz
它有三种模式:
Local (Standalone) Mode #本地节点
Pseudo-Distributed Mode #伪分布式
Fully-Distributed Mode #全分布式
首先用单节点做一种伪分布式的架构
- chmod +x jdk-6u26-linux-x64.bin
- ./jdk-6u26-linux-x64.bin
- mv jdk1.6.0_26/ /usr/local/jdk
- vim .bash_profile
- PATH=$PATH:$HOME/bin:/usr/local/jdk/bin
- source .bash_profile
- useradd yejk
- passwd yejk
- cd /home/yejk
- vim .bash_profile
- PATH=$PATH:$HOME/bin:/usr/local/jdk/bin
- source .bash_profile
- cp hadoop-1.0.3.tar.gz /home/yejk/
- su - yejk
- tar zxf hadoop-1.0.3.tar.gz
- cd hadoop-1.0.3
- 修改一些配置文件
- vim conf/hadoop-env.sh
- # The java implementation to use. Required.
- export JAVA_HOME=/usr/local/jdk
- vim conf/core-site.xml:
- <configuration>
- <property>
- <name>fs.default.name</name>
- <value>hdfs://localhost:9000</value>
- </property>
- </configuration>
- vim conf/hdfs-site.xml:
- <configuration>
- <property>
- <name>dfs.replication</name>
- <value>1</value>
- </property>
- </configuration>
- vim conf/mapred-site.xml:
- <configuration>
- <property>
- <name>mapred.job.tracker</name>
- <value>localhost:9001</value>
- </property>
- </configuration>
建立ssh无密码访问
- ssh-keygen #一路回车
- ssh-copy-id -i ~/.ssh/id_rsa.pub localhost
格式化一个新的dfs文件系统:
- bin/hadoop namenode -format
- ***************
- 2/06/03 07:04:49 INFO common.Storage: Storage directory /tmp/hadoop-yejk/dfs/name has been successfully formatted.
- *****************
启动hadoop:
- bin/start-all.sh
NameNode : http://localhost:50070/
JobTracker :http://localhost:50030/
在文件系统中新建一个目录
- bin/hadoop fs -mkdir test
将conf文件中的数据复制上传到刚刚建立的文件夹中:
- bin/hadoop fs -put conf test
- [yejk@server95 hadoop-1.0.3]$ bin/hadoop fs -du
- Found 1 items
- 54816 hdfs://localhost:9000/user/yejk/test
- [yejk@server95 hadoop-1.0.3]$ bin/hadoop fs -ls
- Found 1 items
- drwxr-xr-x - yejk supergroup 0 2012-06-03 07:19 /user/yejk/test
用自带的一个程序进行测试
- bin/hadoop jar hadoop-examples-1.0.3.jar grep test/* output 'dfs[a-z.]+'
意为使用这个java程序从上传到dfs里的test文件夹里的所有数据中搜索以dfs开头的关键字并统计排序,并把结果保存在output中
产看结果:
- [yejk@server95 hadoop-1.0.3]$ bin/hadoop fs -cat output/*
- 2 dfs.replication
- 2 dfs.server.namenode.
- 2 dfsadmin
- cat: File does not exist: /user/yejk/output/_logs
或者可以:
- bin/hadoop fs -get output output
- [yejk@server95 output]$ cat part-00000
- 2 dfs.replication
- 2 dfs.server.namenode.
- 2 dfsadmin
转载于:https://blog.51cto.com/yejiankang/886134
分布式文件系统Hadoop相关推荐
- hdfs文件系统和linux文件系统,分布式文件系统HADOOP HDFS与传统文件系统LINUX FS的比较与分析...
分布式文件系统HADOOP HDFS与传统文件系统LINUX FS的比较与分析 第3 0卷第 4期 2 1 8月 0 0年 苏 州 大 学 学 报(工 科 版) Vo_ O No 4 13 . Au ...
- hadoop历史背景hdfs分布式文件系统hadoop的集群模式单机模式伪分布
hadoop历史背景&hdfs分布式文件系统&hadoop的集群模式&单机模式&伪分布 1.hadoop的历史背景 lucense ---->nutch----& ...
- Hadoop的分布式文件系统—— Hadoop权威指南3
本章除了讲解HDFS,还从整个Hadoop文件系统的角度介绍了文件系统的命令行.FileSystem接口(Hadoop文件系统的客户端接口) 1. HDFS概述 1. HDFS的特性.应用场景(适合/ ...
- 主流分布式文件系统对比:区块链分布式技术引发云存储革命?HDFS,GFS,GPFS,FusionStorage,IPFS
https://blog.csdn.net/weixin_45494421/article/details/98760782 概要:常见的分布式文件系统有GFS.HDFS等,也有新兴的基于区块链IPF ...
- 2021年大数据Hadoop(七):HDFS分布式文件系统简介
2021大数据领域优质创作博客,带你从入门到精通,该博客每天更新,逐渐完善大数据各个知识体系的文章,帮助大家更高效学习. 有对大数据感兴趣的可以关注微信公众号:三帮大数据 目录 HDFS分布式文件系统 ...
- Hadoop系列之六:分布式文件系统HDFS
1.MapReduce与分布式文件系统 前面的讨论中,我们已经得知,Hadoop中实现的MapReduce是一个编程模型和运行框架,它能够通过JobTracker接收客户提交的作业而后将其分割为多个任 ...
- Hive数据导入——数据存储在Hadoop分布式文件系统中,往Hive表里面导入数据只是简单的将数据移动到表所在的目录中!...
转自:http://blog.csdn.net/lifuxiangcaohui/article/details/40588929 Hive是基于Hadoop分布式文件系统的,它的数据存储在Hadoop ...
- Hadoop 分布式文件系统 - HDFS
当数据集超过一个单独的物理计算机的存储能力时,便有必要将它分不到多个独立的计算机上.管理着跨计算机网络存储的文件系统称为分布式文件系统.Hadoop 的分布式文件系统称为 HDFS,它 是为 以流式数 ...
- Hadoop HDFS分布式文件系统 常用命令汇总
引言:我们维护hadoop系统的时候,必不可少需要对HDFS分布式文件系统做操作,例如拷贝一个文件/目录,查看HDFS文件系统目录下的内容,删除HDFS文件系统中的内容(文件/目录),还有HDFS管理 ...
最新文章
- 数据结构----内存分配问题
- 有限域f9的特征是多少_宽频域谐波的潜在威胁欠缺全面考虑,现有标准需进一步优化...
- 使用CNN进行情感分类
- Google Cloud TPUs支持Pytorch框架啦!
- 文档 hbase_0783-6.2.0-如何在Hue中集成HBase
- LVS负载均衡+三台Route Process服务器
- 收藏一个Excel甘特图模板
- TCP 和 UDP 有什么区别?
- 安卓屏幕朗读app_android录屏app推荐?安卓手机屏幕录制方法步骤教程
- 大数据在智能交通行业的应用
- 当下的力量实践手册读书笔记(1.30)
- 个税计算--Java
- sklearn数据集分割方法汇总
- 如何从源代码中下载图片
- java心跳 谁发谁_java 心跳机制
- 2015阿里校园招聘(2014.09.23)
- PM-127 网关的应用
- 融资、量产和一栈式布局,这家Tier 1如此备战高阶智驾决赛圈
- 第七届飞思卡尔智能车光电组代码
- Nginx实现反向代理
热门文章
- 表 合并字段_多工作表动态合并,其实很简单
- iOS进阶之底层原理-线程与进程、gcd
- iOS 进阶之底层原理一OC对象原理alloc做了什么
- 图形驱动程序和显卡驱动什么区别_专业图形显卡和游戏显卡的区别以及建模和渲染的性能要求...
- iOS 11开发教程(十五)iOS11应用视图的位置和大小
- Hydra 8.4/8.5新增功能
- iOS UICollectionView 使用
- webstorm设置注释颜色_简单5步了解相关矩阵的注释热图
- 二维小波变换_Wavelet Pooling小波池化的思考
- python最简单的爬取邮箱地址_python简单爬虫,抓取邮箱