Hadoop简单介绍
- 纽约证券所交易 每天 1TB
- FaceBook一千亿照片 1PB
- 腾讯 每天 300TB
- 淘宝 每天 pv20亿 数据量 50TB
- ......
- 1990 年 一个磁盘 1370MB 速度4.4MB/s 用时5分钟
- 2010 年 一个磁盘 1TB 速度 100MB/s 用时两个半
- 假设把1TB存储到100个磁盘,每一个存储1%。并行读取,用时不到两分钟。
- 假设一个我们有100个1TB数据集,100个1TB磁盘,那么我们以磁盘共享的方式把每一个数据集分布到100个磁盘中,这样边会大大提高每一个数据集的读取速率。
- 硬盘故障:由于文件系统有多个磁盘,那么随意一个磁盘发生问题的概率就变得非常高。(採取数据备份)
- 数据分析:某些分析任务须要结合大部分数据共同完毕,那么我们的文件系统就要保证对来自多个数据源的数据进行分析的准确性。
网络搜索引擎和基本文档搜索差别就在规模上,Lucene目标是索引数百万文档,而Nutch应该能处理数十亿的网页。
因此Nutch就面临了一个极大的挑战,即在Nutch中建立一个层。来负责分布式处理、冗余、故障恢复及负载均衡等等一系列问题。
。。
。。
而Hadoop则强调把代码向数据迁移,即Hadoop集群中既包括数据又包括运算环境,而且尽可能让一段数据的计算发生在同一台机器上,代码比数据更加easy移动。Hadoop的设计理念即是把要运行的计算代码移动到数据所在的机器上去。
SQL使用查询语句,而MapReduce使用程序和脚本。MapReduce还能够建立复杂的数据统计模型,或者改变图像数据的处理格式。
或许讲一个数据处理应用分解为一个Mapper和Reducer是很繁琐的,可是一旦你写好了一个Mapreduce应用程序,仅需通过配置,就可将其拓展到集群的成百上千个节点上执行,这样的简单的可拓展性使得Mapreduce吸引了大量程序猿。
假设文档非常小。一段简单的代码就可以实现,以下是一段伪代码:
for each document in documentSet {
for each wordCount received from firstPhase {
multisetAdd (totalWordCount, wordCount);
}
比方第二阶段的A计算机仅仅统计以a开头的wordcount,计算机B统计wordcount-b分区,依次类推。
在上面样例中,Mapper转换成的是一个<String word,Integer count>的列表。
# mkdir /usr/hadoop # cd /usr/hadoop/ # wget http://apache.mesi.com.ar/hadoop/common/hadoop-1.2.1/hadoop-1.2.1.tar.gz # tar -xzf hadoop-1.2.1.tar.gz # mv hadoop-1.2.1 hadoop # cd /usr/hadoop/hadoop/
# bin/hadoop
配置 Hadoop
First edit hadoop configuration files and make following changes.
Edit core-site.xml
# vim conf/core-site.xml
#Add the following inside the configuration tag <property><name>fs.default.name</name><value>hdfs://localhost:9000/</value> </property> <property><name>dfs.permissions</name><value>false</value> </property>
Edit hdfs-site.xml
# vim conf/hdfs-site.xml
# Add the following inside the configuration tag <property><name>dfs.data.dir</name><value>/opt/hadoop/hadoop/dfs/name/data</value><final>true</final> </property> <property><name>dfs.name.dir</name><value>/opt/hadoop/hadoop/dfs/name</value><final>true</final> </property> <property><name>dfs.replication</name><value>2</value> </property>
Edit mapred-site.xml
# vim conf/mapred-site.xml
# Add the following inside the configuration tag <property><name>mapred.job.tracker</name><value>localhost:9001</value> </property>
Edit hadoop-env.sh
# vim conf/hadoop-env.sh
export JAVA_HOME=/opt/jdk1.7.0_17 export HADOOP_OPTS=-Djava.net.preferIPv4Stack=true
Set JAVA_HOME path as per your system configuration for java.
Next to format Name Node
$ cd /usr/hadoop/hadoop $ bin/hadoop namenode -format
启动 Hadoop Services
Use the following command to start all hadoop services.
因此我们须要为主节点定制一种手段,使他能够訪问到集群中的每一个节点。
转载于:https://www.cnblogs.com/liguangsunls/p/7056235.html
Hadoop简单介绍相关推荐
- hadoop简单介绍_Hadoop:简单介绍
hadoop简单介绍 什么是Hadoop: Hadoop是用Java编写的框架,用于在大型商品硬件群集上运行应用程序,并具有类似于Google File System和MapReduce的功能 . H ...
- Hadoop:简单介绍
什么是Hadoop: Hadoop是一种用Java编写的框架,用于在大型商品硬件集群上运行应用程序,并具有类似于Google File System和MapReduce的功能 . HDFS是高度容错的 ...
- HDFS简单介绍及用C语言訪问HDFS接口操作实践
一.概述 近年来,大数据技术如火如荼,怎样存储海量数据也成了当今的热点和难点问题,而HDFS分布式文件系统作为Hadoop项目的分布式存储基础,也为HBASE提供数据持久化功能,它在大数据项目中有很广 ...
- MongoDB之Hadoop驱动介绍
http://blog.csdn.net/amuseme_lu/article/details/6584661 MongoDB之Hadoop驱动介绍 ------------------------ ...
- Apache Hadoop 简单配置及实践
http://archboy.org/2011/08/19/simple-apache-hadoop-setup-application-1/ Apache Hadoop 是一个分布式计算基础框架,通 ...
- Hadoop学习总结(1)——大数据以及Hadoop相关概念介绍
一.大数据的基本概念 1.1.什么是大数据 大数据指的就是要处理的数据是TB级别以上的数据.大数据是以TB级别起步的.在计算机当中,存放到硬盘上面的文件都会占用一定的存储空间,例如: 文件占用的存储空 ...
- 大数据以及Hadoop相关概念介绍
一.大数据的基本概念 1.1.什么是大数据 大数据指的就是要处理的数据是TB级别以上的数据.大数据是以TB级别起步的.在计算机当中,存放到硬盘上面的文件都会占用一定的存储空间,例如: 文件占用的存储空 ...
- java 大数据以及Hadoop相关概念介绍
一.大数据的基本概念 1.1.什么是大数据 大数据指的就是要处理的数据是TB级别以上的数据.大数据是以TB级别起步的.在计算机当中,存放到硬盘上面的文件都会占用一定的存储空间,例如: 文件占用的存储空 ...
- 玩转人工智能(3)常用的大数据框架简单介绍
时光不老,我们不散. 讲大数据框架前,简单的介绍下大数据的文化.信息时代人类社会的进步得益于分享和开源.大数据时代属于信息时代的第三代发展阶段(2001年到2011年可以认为是CT行业的黄金期,200 ...
- Kylin快速入门系列(1) | Kylin的简单介绍及安装部署
大家好,我是不温卜火,是一名计算机学院大数据专业大二的学生,昵称来源于成语-不温不火,本意是希望自己性情温和.作为一名互联网行业的小白,博主写博客一方面是为了记录自己的学习过程,另一方面是总结自己 ...
最新文章
- 字符转换指令tr,col,expand
- 传说中的裸奔节--认识及体验CSS
- 绕过CDN查找真实IP 方法简介
- JMS Java消息服务(Java Message Service)
- 一次性配置VS2015属性的方法,新工程无需重新配置
- 詹金斯搭建_与詹金斯一起将GitLab中的Gradle项目发布到Artifactory
- 线索二叉树的C语言实现
- 深度学习和OpenCV-python读书笔记一(DNN介绍)
- 中国口内X射线系统行业市场供需与战略研究报告
- java(20) - 代理模式
- iOS 点击返回键崩溃的未解之谜
- tomcat6到tomcat9解压版(64位)随意下载
- Python xldr 读取xls 文件中时间格式处理
- 给罗永浩和王自如打个分
- apache如何支持php,apache支持php吗
- 前端开发入门 --摘自慕克网大漠穷秋
- un1que成员介绍
- hdu1814 Peaceful Commission,2-sat
- LDF文件过大,如何收缩
- 教你一个无本万利的赚钱方法_一个在股市中稳健赚钱的方法