hadoop系列(一)概念、组件介绍、安装环境、配置

一、大数据概念

概念

  1. 大数据:解决海量数据的采集、存储分析计算的能力

大数据特点

  1. Volume(大量)
  2. Velocity(高速)
  3. Variety(多样)
  4. value(价值密度的高低于数据总量成反比)

大数据应用场景

抖音、京东、零售、仓储(京东物流)、保险、金融、房产等等等


二、hadoop-概念


1.什么是hadoop

什么是hadoop

  1. Apache基金会分布式基础架构
  2. 主要解决海量数据的存储、分析计算圈
  3. 广义上Hadoop指的是Hadoop生态圈

2.hadoop的发展

hadoop的发展



3.hadoop发行版本

hadoop发行版本

  1. Apache版本,最原始基础版本,入门学习友好
  2. Cloudera版本,内部集成了很多大数据框架,对应产品CDH
  3. Hortonwork版本,文档较好、对应HDP

4.hadoop优势

hadoop优势

  1. 高可用:底层维护多个数据副本,既视节点存储故障,也不会导致数据丢失
  2. 高扩展性:在集群分配任务数据,可方便扩展结点(动态扩增)
  3. 高效性:并行工作,加快任务处理速度
  4. 高容错性:自动将失败的任务重新分配

5.hadoop组成

hadoop组成

重要组件:MapReduce、HDFS、common、Yarn

HDFS:分布式文件存储系统

  • HDFS:分布式文件存储系统

    1. NameNode:记录每一个文件块的索引位置
    2. DataNode:具体存储数据
    3. 2NN:NameNode的备份节点,防止NameNode停机造成文件索引位置丢失(每隔一段时间就备份NameNode)

YARN:Hadoop的资源管理器

  • 组件

    1. Resource Manager(管理整个集群资源)
    2. Node Manager(单节点资源管理)
    3. client、(多客户端任务提交)
    4. Application Manager(单节点任务管理)
    5. Container (容器)
  • 任务概述
    1. client客户端请求任务,
    2. ResourceManager(集群资源管理器)分配任务,
    3. NodeManager(节点资源管理器)处理任务
    4. NodeManager(节点)使用虚拟化,可以创建Container (容器),类似docker,client提交的任务在Container容器中执行
    5. 假设当前节点NodeManager-1,无法处理,需要跟多节点分配资源一起处理,可以向ResourceManager申请

MapReduce:任务计算,将计算分为Map和Reduce两个阶段

  • Map并行处理输入数据
  • Reduce阶段对Map结果进行汇总

6.Hadop体系

Hadoop体系

三、hadoop-环境准备

模板虚拟机准备

1.虚拟机环境准备

  1. 使用VMware
  2. 配置虚拟机参数
  3. 使用centos7镜像
  4. 安装centos镜像

一、选择语言、设置时间



二、选择了最小安装


三、安装位置选择了自定义分区,选“我要配置分区”,点击完成,进入第二张图

点击加号:设置/boot是开机初始化分配的资源,设置/swap是设置虚拟内存,符号 / 表示整个空间,分配剩余资源

后面还有设置密码等 安装内容步骤,大同小异,看个人资源和喜好进行安装

配置VMware

配置子网网段等信息

配置windows 网络 VMnet8

centos中,vim 或者vi vi /etc/sysconfig/network-scripts/ifcfg-ens33

检查主机名字,centos初始化安装的时候可以设置,如果没有是设置,可以使用vim修改

vim /etc/hosts 添加节点ip 和对应的主机变量名称

最后重启,ping 百度-查看网络是否成功

2.软件环境准备

yum  install -y epel-release //安装红帽系列软件包
service firewalld stop //关闭防火墙
vim /etc/sudoers

NOPASSWD:ALL 切换用户不用输入密码

创建文件夹,给当前用户授权

最新安装没有安装jdk

工具

yum install -y net-tools //ifconfig 命令工具
yum install -y vim
userdd zhangsan //添加用户
su zhangsan // 切换到用户

克隆

使用VMware 克隆,;选择完整克隆,

进入克隆的资源服务器,修改一下文件,只需要修改

/etc/sysconfig/network-scripts/ifcfg-ens33 --修改ip ( IPADDR )

/etc/hostname 修改name节点,对应 /etc/hosts 中的节点名字


3.安装JDK

安装JDK

链接: https://pan.baidu.com/s/1L4FQyxRJCWMAGcVX9y4MTg?pwd=vuwg 提取码: vuwg

  1. 下载jdk的tarz Linux安装包
  2. 安装JDK
tar -zxvf jdk-8u212-linux-x64.tar.gz  -C  /opt/module/

配置环境变量

vim /etc/profile.d/myJava_home.sh //创建一个myJava_home.sh的shell执行文件\#JAVA_HOME
export JAVA_HOME=/opt/module/jdk1.8.0_212
export PATH=$PATH:$JAVA_HOME/bin
  1. 执行:cat /etc/profile
  2. 观摩代码,其中,Linux会直接循环读取/etc/profile.d/目录下的脚本,一般公司都是这样的配置
  3. 我们将自己写的.sh脚本文件,放到/etc/profile.d/ 下。然后重启或者 source /etc/profile.d/

#关键代码

for i in /etc/profile.d/*.sh /etc/profile.d/sh.local ; doif [ -r "$i" ]; thenif [ "${-#*i}" != "$-" ]; then . "$i"else. "$i" >/dev/nullfifi
done

#整段代码

# /etc/profile# System wide environment and startup programs, for login setup
# Functions and aliases go in /etc/bashrc# It's NOT a good idea to change this file unless you know what you
# are doing. It's much better to create a custom.sh shell script in
# /etc/profile.d/ to make custom changes to your environment, as this
# will prevent the need for merging in future updates.pathmunge () {case ":${PATH}:" in*:"$1":*);;*)if [ "$2" = "after" ] ; thenPATH=$PATH:$1elsePATH=$1:$PATHfiesac
}if [ -x /usr/bin/id ]; thenif [ -z "$EUID" ]; then# ksh workaroundEUID=`/usr/bin/id -u`UID=`/usr/bin/id -ru`fiUSER="`/usr/bin/id -un`"LOGNAME=$USERMAIL="/var/spool/mail/$USER"
fi# Path manipulation
if [ "$EUID" = "0" ]; thenpathmunge /usr/sbinpathmunge /usr/local/sbin
elsepathmunge /usr/local/sbin afterpathmunge /usr/sbin after
fiHOSTNAME=`/usr/bin/hostname 2>/dev/null`
HISTSIZE=1000
if [ "$HISTCONTROL" = "ignorespace" ] ; thenexport HISTCONTROL=ignoreboth
elseexport HISTCONTROL=ignoredups
fiexport PATH USER LOGNAME MAIL HOSTNAME HISTSIZE HISTCONTROL# By default, we want umask to get set. This sets it for login shell
# Current threshold for system reserved uid/gids is 200
# You could check uidgid reservation validity in
# /usr/share/doc/setup-*/uidgid file
if [ $UID -gt 199 ] && [ "`/usr/bin/id -gn`" = "`/usr/bin/id -un`" ]; thenumask 002
elseumask 022
fifor i in /etc/profile.d/*.sh /etc/profile.d/sh.local ; doif [ -r "$i" ]; thenif [ "${-#*i}" != "$-" ]; then . "$i"else. "$i" >/dev/nullfifi
doneunset i
unset -f pathmunge

4.安装Hadoop

解压,配置编辑环境变量

链接: https://pan.baidu.com/s/1ICrgitJ7WnZNYXTIgDgeRg?pwd=h6j2 提取码: h6j2

tar -zxvf hadoop-3.1.3.tar.gz  -C /opt/module/     vim /etc/profile.d/myJava_home.sh //创建一个myJava_home.sh的shell执行文件,写入以下配置,写完直接保存#HAdOOP_HOME
export HADOOP_HOME=/opt/module/hadoop-3.1.3
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=#PATH:$HADOOP_HOME/sbin

hadoop系列(一)概念、组件介绍、安装环境、配置相关推荐

  1. Hadoop入门及常用组件介绍

    文章目录 大数据体系架构 hadoop介绍 Hadoop生态系统主要组件 HDFS (分布式文件系统) MapReduce(分布式计算框架) Spark(基于内存的分布式计算框架) Storm(实时的 ...

  2. Hadoop架构及各组件介绍

    什么是hadoop? hadoop是一个可靠,可扩展的分布式开源框架,提供海量数据的存储和计算.一般hadoop指的是hadoop生态圈. 一.先通过一张图了解一下hadoop生态系统整体框架结构. ...

  3. ibm服务器raid扩硬盘,IBM x系列服务器RAID卡介绍及配置阵列

    一.关于IBM服务器的阵列卡 IBM 阵列卡有很多型号,对不同的卡也有不同的配置方法.先看看IBM有哪些阵列卡,目前IBM的阵列卡从控制的硬盘来说可以分成三大类: 1.控制SCSI硬盘的SCSI RA ...

  4. 【Kubernetes系列】Kubernetes组件介绍

    概述 kubernetes中文文档:https://kubernetes.io/zh/docs/home/ kubernetes中文社区:https://www.kubernetes.org.cn/d ...

  5. [华为路由系列-2] 等价路由介绍和配置

    等价静态路由 所谓等价路由就是路由器通过路由选举规则比较不出优劣的路由,等价路由的路由优先级必须一样. (使用场景:当网络设备有多条去往目标网段的路径,并且这些路径的带宽一致或者带宽差异不大时,可以使 ...

  6. 【Hadoop大数据平台组件搭建系列(一)】——Zookeeper组件配置

    简介 本篇介绍Hadoop大数据平台组件中的Zookeeper组件的搭建 使用软件版本信息 zookeeper-3.4.14.tar.gz Zookeeper安装 解压Zookeeper安装包至目标目 ...

  7. Hadoop系列 (三):HDFS详细介绍

    文章目录 Hadoop系列文章 HDFS简介 HDFS基本概念 分布式文件系统特点 HDFS设计目标 HDFS架构 HDFS应用场景 HDFS三大组件 NameNode SecondaryNameNo ...

  8. Hadoop系列之-7、Hadoop3.x的介绍

    版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明. 大数据系列文章目录 目录 介绍 Hadoop 3.0新特性 介绍 由于Hadoop 2.0是基 ...

  9. 【大数据笔记】hadoop基础——各组件介绍

    目录 故事背景 Hadoop 与大数据之间到底是什么关系? 1.数据存储:HDFS,一个分布式文件系统 2. 数据分析:MapReduce 计算引擎 HDFS(Hadoop 分布式文件系统) MapR ...

最新文章

  1. R语言临床预测模型的评价指标与验证指标实战:综合判别改善指数IDI(Integrated Discrimination Improvement, IDI)
  2. fileupload的回调方法_jQuery File Upload文件上传插件使用详解
  3. iOS:给标签栏控制器的UITabbarItem添加点击动效
  4. STM32 基础系列教程 9 – 串口通信
  5. Android源码打包命令
  6. 转:11个实用但你可能不知道的Python程序库
  7. 计算机二级语义网络的研究现状与展望,计算机二级access选择题题库研究.doc
  8. RabbitMQ封装实战
  9. angular js 使用pdf.js_排名靠前的几个JS框架发展趋势和前景
  10. 解决 windows10和ubuntu16.04双系统下时间不对的问题
  11. 正则表达式匹配手机4位尾号
  12. 360天擎默认卸载密码_装机工具老毛桃携带木马病毒 卸载安全软件进行恶意推广...
  13. python最适合做什么-python能做什么,适不适合新手学?
  14. WEB开发技术 知识点总结
  15. c语言字符串路径打开本地文件,C语言文件路径中的”/“和“\“
  16. 神盾特工hive_漫威电影宇宙编年史(一):宇宙大爆炸到灭霸家乡的消亡
  17. listview下拉刷新上拉加载扩展(三)-仿最新版美团外卖
  18. 2、PVID(本征VLAN)实验配置步骤
  19. dedecms如何自定义分页样式
  20. PaddyShop开源商城源码(可免费商用)

热门文章

  1. 在指定的日期和时间关机
  2. 京东搜索布局优化方法(干货)
  3. 15个全球最有影响力的大数据公司
  4. Java游戏里面的星球大战_星球大战手机游戏-JAVA程序算法
  5. 【Linux】Linux权限(一)文件权限和目录权限
  6. 计算机相关社团有哪些,计算机社团简介
  7. open函数和fopen函数区别
  8. 钉钉H5微应用开发免登以及接口调试
  9. 点击button按钮实现全选_全选按钮的实现及事件的处理
  10. bim机电建模下载丨Revit Mep线管连接件中心线画法