一、hadoop简介

Hadoop起源于Google的三大论文:

  • GFS:Google的分布式文件系统Google File System
  • MapReduce:Google的MapReduce开源分布式并行计算框架
  • BigTable:一个大型的分布式数据库

演变关系:

  • GFS—->HDFS
  • Google MapReduce—->Hadoop MapReduce
  • BigTable—->HBase

Hadoop名字不是一个缩写,是Hadoop之父Doug Cutting儿子毛绒玩具象命名的。

hadoop主流版本:

  • Apache基金会hadoop
  • Cloudera版本(Cloudera’s Distribution Including Apache Hadoop,简称“CDH”)
  • Hortonworks版本(Hortonworks Data Platform,简称“HDP”)


Hadoop的框架最核心的设计就是:HDFS和MapReduce。

  • HDFS为海量的数据提供了存储。
  • MapReduce为海量的数据提供了计算。

Hadoop框架包括以下四个模块:

  • Hadoop Common: 这些是其他Hadoop模块所需的Java库和实用程序。这些库提供文件系统和操作系统级抽象,并包含启动Hadoop所需的Java文件和脚本。
  • Hadoop YARN: 这是一个用于作业调度和集群资源管理的框架。
  • Hadoop Distributed File System (HDFS): 分布式文件系统,提供对应用程序数据的高吞吐量访问。
  • Hadoop MapReduce:这是基于YARN的用于并行处理大数据集的系统。

hadoop应用场景:
在线旅游
移动数据
电子商务
能源开采与节能
基础架构管理
图像处理
诈骗检测
IT安全
医疗保健

二、部署

get hadoop-3.2.1.tar.gz jdk-8u171-linux-x64.tar.gz
[root@server1 ~]# useradd -u 1001 hadoop
[root@server1 ~]# mv * /home/hadoop/
[root@server1 ~]# su - hadoop
[hadoop@server1 ~]$ tar zxf hadoop-3.2.1.tar.gz
[hadoop@server1 ~]$ tar  zxf jdk-8u171-linux-x64.tar.gz
[hadoop@server1 ~]$ ln -s jdk1.8.0_171/ java
[hadoop@server1 ~]$ ln -s hadoop-3.2.1 hadoop
[hadoop@server1 ~]$ cd hadoop
[hadoop@server1 hadoop]$ cd etc/hadoop/
[hadoop@server1 hadoop]$ vim hadoop-env.sh
[hadoop@server1 ~]$ cd hadoop
[hadoop@server1 hadoop]$ mkdir input
[hadoop@server1 hadoop]$ cp etc/hadoop/*.xml input
[hadoop@server1 hadoop]$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.2.1.jar grep input output 'dfs[a-z.]+'
[hadoop@server1 hadoop]$ cat output/*
1   dfsadmin
[hadoop@server1 ~]$ cd hadoop/etc/hadoop/
[hadoop@server1 hadoop]$ vim core-site.xml
<configuration><property><name>fs.defaultFS</name><value>hdfs://localhost:9000</value></property>
</configuration>
[hadoop@server1 hadoop]$ vim hdfs-site.xml
<configuration><property><name>dfs.replication</name><value>1</value></property>
</configuration>
[hadoop@server1 ~]$ cd hadoop
[hadoop@server1 hadoop]$ bin/hdfs namenode -format
vim ~/.bash_profile
source ~/.bash_profile
[hadoop@server1 ~]$ hdfs dfs -mkdir -p /user/hadoop
[hadoop@server1 hadoop]$ hdfs dfs -put input

网页访问:172.25.3.1:9870查看上传结果

[root@server1 ~]# echo westos | passwd --stdin hadoop
[hadoop@server1 hadoop]$ ssh-keygen
[hadoop@server1 hadoop]$ ssh-copy-id localhost
[hadoop@server1 hadoop]$ bin/hdfs namenode -format
[hadoop@server1 hadoop]$ cd sbin/
[hadoop@server1 sbin]$ ./start-dfs.sh
[hadoop@server1 hadoop]$bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.2.1.jar wordcount input output
[hadoop@server1 hadoop]$ hdfs dfs -ls input
[hadoop@server1 hadoop]$ hdfs dfs -cat output/*

[hadoop@server1 sbin]$ ./stop-dfs.sh
[root@server1 ~]# yum install nfs-utils.x86_64 -y
[root@server1 ~]# vim /etc/exports
[root@server1 ~]# systemctl start nfs
[root@server2 ~]# yum install -y nfs-utils     #server3同样操作
[root@server2 ~]# useradd -u 1001 hadoop
[root@server2 ~]# showmount -e 172.25.3.1
Export list for 172.25.3.1:
/home/hadoop *
[root@server2 ~]# mount 172.25.3.1:/home/hadoop/ /home/hadoop/
[hadoop@server2 ~]$ jps
14426 Jps
14335 DataNode

[root@server1 ~]# su - hadoop
[hadoop@server1 ~]$ cd hadoop
[hadoop@server1 hadoop]$ cd etc/hadoop/
[hadoop@server1 hadoop]$ vim core-site.xml
<configuration><property><name>fs.defaultFS</name><value>hdfs://server1:9000</value></property>
</configuration>
[hadoop@server1 hadoop]$ vim workers
server2
server3
[hadoop@server1 hadoop]$ vim hdfs-site.xml
<configuration><property><name>dfs.replication</name><value>2</value></property>
</configuration>
[hadoop@server1 hadoop]$ bin/hdfs namenode -format
[hadoop@server1 ~]$ cd hadoop
[hadoop@server1 hadoop]$ cd sbin/
[hadoop@server1 sbin]$ ./start-dfs.sh
[hadoop@server1 sbin]$ jps
19218 NameNode
19442 SecondaryNameNode
19562 Jps

[hadoop@server1 hadoop]$ hdfs dfs -mkdir -p /user/hadoop/
[hadoop@server1 hadoop]$ hdfs dfs -mkdir input
[hadoop@server1 hadoop]$ hdfs dfs -put * input


热添加:

[root@server4 ~]# yum install nfs-utils -y
[root@server4 ~]# useradd -u 1001 hadoop
[root@server4 ~]# mount 172.25.3.1:/home/hadoop/ /home/hadoop/
[root@server4 ~]# su - hadoop
[hadoop@server1 hadoop]$ vim workers
server2
server3
server4
[hadoop@server4 hadoop]$ hdfs --daemon start datanode



上传测试:

[hadoop@server4 ~]$ hdfs dfs -put jdk-8u171-linux-x64.tar.gz

节点删除

[hadoop@server1 hadoop]$ vim hdfs-site.xml
<configuration><property><name>dfs.replication</name><value>2</value></property><property><name>dfs.hosts.exclude</name><value>/home/hadoop/hadoop/etc/hadoop/dfs.hosts.exclude</value></property><property><name>dfs.hosts</name><value>/home/hadoop/hadoop/etc/hadoop/dfs.hosts</value></property>
</configuration>
[hadoop@server1 sbin]$ ./stop-dfs.sh
[hadoop@server1 sbin]$ ./start-dfs.sh
[hadoop@server1 hadoop]$ vim workers
server2
server3
server4
[hadoop@server1 hadoop]$ vim dfs.hosts.exclude
server3
[hadoop@server1 hadoop]$ vim dfs.hosts
server2
server3
server4

Hadoop大数据平台相关推荐

  1. hadoop大数据平台架构之DKhadoop详解

    hadoop大数据平台架构之DKhadoop详解 大数据的时代已经来了,信息的爆炸式增长使得越来越多的行业面临这大量数据需要存储和分析的挑战.Hadoop作为一个开源的分布式并行处理平台,以其高拓展. ...

  2. Hadoop大数据平台环境搭建注意事项,分布式数据采集,武汉数道云科技

    Hadoop大数据作为时代发展的产物,影响着互联网企业发展.以及企业关于品牌形象推广.政府有关民意采集.以及有关数据信息收集分类------ Hadoop技术的发展,带来了海量数据高效处理的能力,也给 ...

  3. 大数据基础——Hadoop大数据平台搭建

    文章目录 前言 Hadoop大数据平台搭建 一.Hadoop原理和功能介绍 二.Hadoop安装部署 三.Hadoop常用操作 总结 前言 分布式机器学习为什么需求大数据呢?随着海量用户数据的积累,单 ...

  4. 初识大数据--Hadoop大数据平台架构与实践

    Hadoop大数据平台架构与实践 推荐书籍: ⭐大数据存储与处理技术的原理(理论) ⭐Hadoop的使用和开发能力(实践) 预备知识: Linux常用命令 Java基础编程 1.大数据相关概念 ​ 无 ...

  5. Hadoop大数据平台开发与案例分析

    关于举办"Hadoop大数据平台开发与案例分析 "高级工程师 一.课程介绍 1. 需求理解 Hadoop 设计之初的目标就定位于高可靠性.高可拓展性.高容错性和高效性,正是这些设计 ...

  6. 【Hadoop大数据平台组件搭建系列(一)】——Zookeeper组件配置

    简介 本篇介绍Hadoop大数据平台组件中的Zookeeper组件的搭建 使用软件版本信息 zookeeper-3.4.14.tar.gz Zookeeper安装 解压Zookeeper安装包至目标目 ...

  7. Hadoop大数据平台安装

    实验一:Hadoop大数据平台安装 16281002 杜永坤 1.实验目的 在大数据时代,存在很多开源的分布式数据采集.计算.存储技术,本实验将熟悉并搭建几种常用的大数据采集.处理分析技术环境. &l ...

  8. 教育行业需要了解的大数据,武汉数道云科技浅析:Hadoop大数据平台如何搭建?...

    从教育行业的需求出发,去分析互联网时代教育行业需要了解的大数据,以及大数据平台的搭建应该注意什么? 中国-教育规模较大的国家之一,随着互联网的发展,海量的教育大数据将不断产生,如何有效科学的利用数据资 ...

  9. 【数道云】教育行业需要了解的大数据,武汉Hadoop大数据平台如何搭建?...

    从教育行业的需求出发,去分析互联网时代教育行业需要了解的大数据,以及大数据平台的搭建应该注意什么? 中国-教育规模较大的国家之一,随着互联网的发展,海量的教育大数据将不断产生,如何有效科学的利用数据资 ...

  10. 【数道云】教育行业需要了解的大数据,武汉Hadoop大数据平台如何搭建?

    从教育行业的需求出发,去分析互联网时代教育行业需要了解的大数据,以及大数据平台的搭建应该注意什么? 中国-教育规模较大的国家之一,随着互联网的发展,海量的教育大数据将不断产生,如何有效科学的利用数据资 ...

最新文章

  1. 知识点讲解七:Python中的异常处理机制
  2. python 不同集合上元素的迭代 chain()
  3. [整理]Git使用文章整理
  4. win7计算机管理禁用,Win7任务管理器已被系统管理员禁用怎么办
  5. 三级栏目选项卡 html,李长河 中文主页 实验题目三级页面(隐藏栏目,用于放置对应三级页面) 中国地质大学(武汉)教师个人主页系统...
  6. WPF DataGrid根据内容设置行颜色
  7. 10kv电压互感器型号_电压互感器型号大全
  8. 【Java】OpenJDK 64-Bit Server VM warning: Sharing is only supported for boot loader classes…… 的解决方法
  9. Celery 框架学习笔记(分布式框架)
  10. 服务器内存条故障显示器,客户的电脑原故障是不开机,现在又变成蓝屏:变着法加钱就搞鬼...
  11. JavaScript-拷贝
  12. c语言中的有符号数和无符号数
  13. ORB-SLAM3 代码解读
  14. 免费下载 仿宋GB2312字体
  15. 山大泰克条屏写串口的核心代码(海宏原创,转载请注明)
  16. 启天m7300微型计算机,启天M7300
  17. 检测到硬盘错误:在MBR硬盘上没有找到可以引导的分区
  18. java 输出大写字母与小写字母
  19. how to manage your time effectively!!
  20. python educoder苹果梨子_pythoneducoder苹果梨子煮水的功效_苹果梨子汤的功效

热门文章

  1. 机器学习实战—FPGrowth算法的实现
  2. OLED12864 液晶屏
  3. 如何准备软件评测师考试
  4. 微软服务器系统补丁kb2919355,关于补丁KB2919355
  5. WindowBuilder的使用----java前端的重要框架
  6. Delphi7 动态数组
  7. 样本大小的确定_显着功效样本大小效应大小之间的关系
  8. 蓝宝石会升级bios吗_蓝宝石主板bios设置教程
  9. 相亲交友小程序开发方案及源码
  10. 搭建nginx服务器