大数据基础平台实施及运维

为什么使用大数据技术

  • 海量数据需要处理
  • 数据分析实时性越来越强
  • 数据结果的应用越来越广泛

  • 人工处理起来非常困难

什么是大数据

  • 收集、整理、处理大容量数据集,并从中获得结果的技术总称

  • 大数据应用领域

  • 广告、电信、金融、安全、能源生物、社交游戏、电商零售

大数据处理框架

仅批处理框架

对整个数据集进行处理

  • Apache Haddoop
    一种以MapReduce作为默认处理引擎批处理框架

仅流处理框架

随时处理进入系统的数据,无数据边界

  • Apache Storm
  • Apache Samza

混合处理框架

同时批处理和流处理

  • Apache Spark
  • Apache Flink

hadoop历史

  • 2002年 Doug Cutting 开发了 Nutch

  • 2004年 Doug Cutting 实现了分布式文件存储系统名为NDFS

  • 2005年 Doug Cutting 实现了MapReduce功能

  • 2006年 将NDFS与MapReduce升级命名为Hadoop

Hadoop生态圈

核心项目

  • HDFS
  • MapReduce
  • YARN
  • Common
  • Ozone

相关项目

  • Ambari
  • Avro
  • Cassandra
  • Chukwa
  • HBase
  • Pig
  • Spark
  • Hive

Hadoop核心项目介绍

分布式文件系统HDFS

  • 特点:

    • 高度容错性系统
    • 支持大数据文件
    • 支持一次写入,多次读写,顺序读取
    • 适合在廉价的机器上,支持硬件故障
    • 提供高吞吐量数据访问
    • 适合有超大数据集的应用程序
  • 关键词:
    • Block–Hadoop 2.x 默认大小128M
    • NameNode–保存元数据、接收用户请求、管理文件与Block,Block与DataNode之间的关系
    • DataNode–存储Block块文件,具体数据

MapReduce

  • Map:一种分配计算任务的方法
    ​ 生成一些中间文件作为Reduce任务的输入数据
  • Reduce:一种从Map结果集获得最终数据的方法,并保存在HDFS文件系统中

YARN–另一种资源协调者

  • ResourceManager–负责对各个NodeManager上的资源进行统一管理和调度

    • ApplicationsManager
    • ResourceScheduler
  • NodeManager–在各个计算节点运行,用于接收RM中ApplicationManager的计算任务、启动/停止任务、和RM中Scheduler汇报并协商自愿、监控并汇报节点的情况
    • ApplicationManager
    • Map Task
    • Reduce Task
    • Container–是一组资源描述的集合,或资源分组描述。例如组1包含:CPU 0.2 Mem 100M

Hadoop部署

本地模式

  • 伪分布式
  • 完全分布式

部署区分依据

  • 是否启动多个进程,多个进程运行在相同或不同的节点上

本地部署(单机部署)

  • 只运行在本地
  • 是Hadoop默认部署模式
  • 不启动进程
  • 配置文件为空
  • 使用本地文件系统,不使用HDFS文件系统
  • 主要用于开发调试MapReduce程序的应用逻辑
  • 安装软件直接使用

伪分布式部署

  • 用于模拟小规模集群
  • 允许代码调试
  • 以守护进程方式运行
  • 使用HDFS是文件系统
  • 部署
    • 安装软件
    • 修改配置文件
    • 格式化HDFS
    • 启动角色(NameNode、DataNode)
    • HDFS测试文件操作

完全分布式部署

  • 利用多台Linux主机进行部署Hadoop,对Linux机器集群进行规划,是的Hadoop各个模块分别部署在不同的机器上

HA+完全分布式部署

  • 切换实现方式:对NameNode进行一个抽象:NameService —有两个NameNode,一个Active,一个Standby状态;通过Zookeeper记性协调选举,确保只有一个活跃的NameNode

    • ZKFC
  • HA数据共享方法
    NameNode维护两个文件

    • fsimage

      • 保存了最新的元数据检查点
    • editlog
      • HDFS客户端执行所有的写操作都会记录在editlog中
  • Active NameNode与Standby NameNode之间通过JournalNode相互通信,相当于NFS共享文件系统,Active NameNode 王里写editlog数据,Standby在从里面读取数据进行同步

Ambari自动部署Hadoop集群

  • 作用

    • 提供Hadoopjiqun
    • 管理Hadoop集群
    • 监控Hadoop集群
  • 组成
    • Ambari-server
    • Ambari-agent

扩展:cloudera

大数据基础平台实施及运维相关推荐

  1. 【2016年第6期】基于大数据的移动互联网主动运维理论和实践进展

    杨慰民 中国移动通信集团福建有限公司,福建 福州 350003 ‍‍摘要:‍对于非话音的移动互联网业务,即使网络指标是完好的,仍然存在用户感知不佳的现象.基于大数据技术研究用户感知和网络性能指标的关系 ...

  2. 电能管理系统运用互联网和大数据技术,为电力运维公司和售配电公司提供变电所运维云平

    Acrel-3000WEB电能管理系统在扬州某年产3GW高性能太阳能光伏组件项目 安科瑞 崔远航 摘要:在信息时代,电力信息系统的应用促迚了电力企业的収展,增强了电力系统运行的安全性与稳定性,对满足用 ...

  3. 大数据基础平台搭建-(一)基础环境准备

    大数据基础平台搭建-(一)基础环境准备 大数据平台系列文章: 1.大数据基础平台搭建-(一)基础环境准备 2.大数据基础平台搭建-(二)Hadoop集群搭建 3.大数据基础平台搭建-(三)Hadoop ...

  4. PPTV大数据基础平台升级总结

        伴随着PPTV各项业务的快速发展,为了方便各业务部门洞察相关业务情况,我们于2011年底启动了内部大数据平台的建设.目前,我们已建成大数据分析基础平台和大数据应用平台.基础分析平台主要是基于H ...

  5. 网易大数据基础平台建设之路

    来源 | DataFun Talk 作者 | 蒋鸿翔 声明:本文摘自网易蒋鸿翔老师在DataFun社区上的技术分享<网易数据基础平台建设>,从数据库内核到大数据平台底层技术开发,分享了网易 ...

  6. Acrel-3000WEB电能管理系统运用互联网和大数据技术,为电力运维公司和售配电公司提供变电所运维云平台

    1 引言 2015年国务院发布<中共中央.国务院关于进一步深化电力体制改革的若干意见>(中发[2015]9号),简称"电改9号文".而本次新电改的重点是"三放 ...

  7. 340页11万字智慧政务大数据资源平台大数据底座数据治理建设方案

    目  录 第一章 项目概况 1.1 项目名称 1.2 项目单位 1.3 项目建设依据 1.4 项目建设内容和目标 1.4.1 建设内容 1.4.2 建设目标 1.5 项目投资估算及建设周期 1.5.1 ...

  8. 11万字数字政府智慧政务大数据建设平台(大数据底座、数据治理)

    本资料来源公开网络,仅供个人学习,请勿商用,如有侵权请联系删除. 部分资料内容: 一.1.1 数据采集子系统 数据采集需要实现对全区各委办单位的数据采集功能,包括离线采集.准实时采集和实时采集的采集方 ...

  9. 大数据资产管理平台实践(附PDF下载)

    数据资产管理服务工作,涵盖企业IT系统生命周期的不同阶段,协助企业建立适合自身特点的数据资产管理制度,提升企业对自身数据资产管理的能力,为后续数据挖掘变现提供可靠.有价值和高质量的数据,提供更好的产品 ...

最新文章

  1. c++ 结构体赋值_《零基础看得懂的C语言入门教程》—(十二)结构体是这么回事
  2. 物理学家解说2012
  3. python测试开发django-35.xadmin注册表信息
  4. Windows2008 组策略应用
  5. AngularJS学习笔记
  6. arduino智能风扇系统
  7. Python 卸载python
  8. zabbix监控redis
  9. pc控制iphone的软件_嗑技热点 | 苹果M1芯片:对PC行业的降维打击
  10. Kmalloc和Vmalloc的区别
  11. 数据结构c字符串操作语言版本
  12. Erlang进程堆垃圾回收机制
  13. Python+Appium自动化搭建新手教程
  14. 台达触摸屏和vfd-m变频器通讯控制监视程序 使用modbus rtu通讯方式,在触摸屏可以直接控制变频器
  15. mini LED 背光驱动芯片的发展
  16. Complete Internet Repair(电脑网络修复工具)官方中文版V8.1.3.5222 | 网络修复工具使用后仍不能上网?快试试万能网络修复大师
  17. 定向光和天空盒(个人笔记)
  18. mysql表结构设计工具_工具 EZDML表结构设计器
  19. 2019牛客多校第九场AThe power of Fibonacci(广义BM)
  20. 昆明网站建设,昆明网站优化如何选

热门文章

  1. js css代表什么,js与css的区别是什么
  2. linux密码忘了?一招解决
  3. mime type 列表(史上最全)
  4. PageHelpe插件VO转换导致分页总数错误
  5. 磐河数据php代码,国内机票_API数据接口_免费数据调用 - 磐河数据用户中心
  6. 大锅菜机器人_炒菜机器人亮相长大食堂,可做百余种菜品
  7. Spark快速大数据分析——读书笔记
  8. 「 数学模型 」“灰色预测GM(1,1)模型原理及Matlab实例”讲解
  9. 《口算大作战 2》DLC:算法真奇妙
  10. Android进程间通信 Messenger详解