大数据运维的挑战—如何保证集群稳定与运行效率

企业级大数据集群通常拥有海量的数据存储、日常运算成干上万的计算任务,需要满足各类上层业务的计算需求。对于这类集群的运维往往充满着挑战:海量的数据、庞杂的组件以及组件之间复杂的依赖关系、对于时效要求的的运算任务,都会提升运维难度。作为支撑平台,大数据集群的稳定性和运行效率,会直接影响到公司业务的正常运作和发展。

集群管理员往往对整体集群做好了监控运维体系,对于大数据集群,简单的监控运维体系能够帮助管理员在遇到故障的时候定位问题。但对于整体集群的运行效率,集群的状态,通过单纯的监控指标很难给出一个全面的解答。

对于大数据集群,管理员以及 CIO 等更关注以下的内容:

  • 集群内的节点的运行状态和资源使用状况;
  • 运行在集群上的服务组件的状态监控和异常处理,包括 YARN、HDFS、Hive 和 Spark 等;
  • 计算任务运行情况和执行效率;
  • 整体集群的健康程度和如何改进。

面对运维挑战,EMR重磅推出:智能运维诊断系统(EMR Doctor)

为了提升大数据集群运维效率,辅助 EMR 用户完善集群监控体系。E-MapReduce 推出面向开源大数据集群的智能运维诊断系统 E-MapReduce Doctor(简称EMR Doctor)。 EMR Doctor 作为开源大数据集群的管家,会自动每日巡检集群。集群管理员只需要定期查看健康检查报告,并且根据报告中的建议对集群做相应的优化调整,即可全局了解集群的健康状况和动态走势,并保持集群的健康度。

如何使用 EMR Doctor

  1. 进入 EMR 控制台健康检查页面。

    1. 登录 EMR on ECS 控制台
    2. 在顶部菜单栏处,根据实际情况选择地域和资源组。
    3. 集群管理页面,单击目标集群的集群ID
    4. 单击上方的健康检查页签。
  2. 在健康检查页面,您可以看到当前集群的健康检查报告(T+1)。健康状态列显示了该集群的健康度,您可以点击查看报告进入检查报告页面。

3.健康检查报告中包含集群计算资源的总体分析

4.健康检查报告中包含计算任务从各个维度的排名并给出任务调优建议

5.健康检查报告中包含对集群存储的总体分析,以及大小文件和冷热数据的详细分析

6.健康检查报告主要分析内容如下,更详细说明请参见查看健康检查状态和报告

计算资源分析

概述

状态概述

需要关注的问题

计算基础信息

集群计算评分

集群算力内存时

集群算力CPU时

计算引擎内存算力时

计算任务信息

计算任务算力内存时分析

计算任务评分排行榜

Spark

Spark任务算力分析及调优建议

Tez

Tez任务算力分析及调优建议

MapReduce

MapReduce任务算力分析及调优建议

HDFS存储资源分析

(需开启存储资源信息采集开关)

概述

状态概述

需要关注的问题

HDFS基础信息

HDFS存储资源使用趋势

文件总数随时间变化趋势

评分趋势

HDFS文件大小分布

HDFS文件大小比例

一级目录空文件个数Top10

一级目录极小文件个数Top10

一级目录小文件个数Top10

一级目录中等文件个数Top10

一级目录大文件个数Top10

HDFS冷热数据分布

HDFS冷热数据

一级目录极冷数据大小Top10

一级目录冷数据大小Top10

一级目录温数据大小Top10

一级目录热数据大小Top10

HIVE存储资源分析

(需开启存储资源信息采集开关)

概述

状态概述

需要关注的问题

Hive基础信息

存储趋势

文件数量趋势

评分趋势

Hive库信息

库存储排名

库文件总数排名

库评分

Hive表文件大小分布

Hive表文件大小分布比例

Hive表空文件个数Top10

Hive表极小文件个数Top10

Hive表小文件个数Top10

Hive中等文件个数Top10

Hive大文件个数Top10

Hive冷热数据分布

Hive冷热数据分布

Hive表极冷数据大小Top10

Hive表冷数据大小Top10

Hive表温数据大小Top10

Hive表热数据大小Top10

Hive表存储格式分布

Hive表存储格式分布

Hive表TextFile/Parquet/ORC格式文件分析

原文链接

本文为阿里云原创内容,未经允许不得转载。

EMR 重磅发布智能运维诊断系统(EMR Doctor)——开源大数据平台运维利器相关推荐

  1. EMR重磅发布智能运维诊断系统(EMR Doctor)——开源大数据平台运维利器

    大数据运维的挑战-如何保证集群稳定与运行效率 企业级大数据集群通常拥有海量的数据存储.日常运算成干上万的计算任务,需要满足各类上层业务的计算需求.对于这类集群的运维往往充满着挑战:海量的数据.庞杂的组 ...

  2. 干货 | 网易大数据平台运维实战

    本文整理自SACC2021中国系统架构师大会,是网易金川老师视频直播的文字版本,他分享的主题是"网易大数据平台运维实战" 各位SACC观众,大家好,感谢各位参加本次智能运维实践会场 ...

  3. 部分大数据平台运维题及答案

    大数据平台运维 HDFS题: 1.在HDFS文件系统的根目录下创建递归目录"1daoyun/file",将附件中的BigDataSkills.txt文件,上传到1daoyun/fi ...

  4. “1+X“大数据平台运维职业技能等级证书(中级)模拟题-Storm组件部署

    目录 一.前置说明 二.Storm相关知识(必看,仅应对考试) 三.Storm部署 3.1.Zookeeper集群安装并启动 3.2.解压Storm,并配置conf/storm.yaml 3.3.启动 ...

  5. 阿里云EMR 2.0:重新定义新一代开源大数据平台

    摘要:本文整理自阿里云高级产品专家何源(荆杭)在 阿里云EMR2.0线上发布会 的分享.本篇内容主要分为三个部分: 开源大数据的痛点及EMR产品历程 EMR2.0 新特征 总结 一.开源大数据的痛点及 ...

  6. 大数据运维 (四) 大数据平台运维总结

    大家好,我是脚丫先生 (o^^o) 目前自己在运维方面,主要管理着CDH平台和HDP平台,同时负责着以docker的形式进行产品的交付. 文章目录 0.CDH集群配置.日志.jar包以及安装目录和常用 ...

  7. 电商大数据平台运维案例

    技术栈 数据流向 平台规模 差异化,隔离化 YARN: https://baike.baidu.com/item/yarn/16075826?fr=aladdin 今天先到这儿,希望对您在系统架构设计 ...

  8. GreenPlum 大数据平台--运维(三)

    一,操作命令 01,启动gpstart 参数说明 COMMAND NAME: gpstartStarts a Greenplum Database system.******************* ...

  9. 大数据平台运维之Hbase

    Hbase 16.启动大数据平台的Hbase数据库,其中要求使用master节点的RegionServer.在Linux Shell中启动Hbase shell,查看HBase的版本信息.将以上操作命 ...

最新文章

  1. 前端碎碎念 之 nextTick, setTimeout 以及 setImmediate 三者的执行顺序
  2. 建立单链表(尾插法)
  3. 砂.随笔.三十四.用时间在等待
  4. 三类MySQL_mysql 常用的三类函数
  5. 面试篇---1 如何区分深拷贝与浅拷贝
  6. 如何获得带时间的ping的结果
  7. jframe和mysql登陆_刚写的一个从数据库读取账户和密码进行登陆的小程序~高手请无~...
  8. LeetCode 110. 平衡二叉树(二叉树高度)
  9. python包mdure_Python hashlib模块实例使用详解
  10. c++ winpcap开发(9)
  11. 带你学习javascript的函数进阶(二)
  12. spring---FactoryBean与BeanFactory的区别
  13. 如何利用window下的Dos命令实现将多个txt合并成一个txt
  14. NRF24L01模块----6通道通讯测试
  15. termux无法安装引导程序包_安卓神器termux之二——文本编辑器篇
  16. 用svn上的文件,覆盖本地文件
  17. 往事如烟 - 父亲母亲的居木子豆腐
  18. 人工智能在医药行业的应用
  19. 央联众商APP告诉你怎样来“理”,然后才有那个“财”
  20. 概率论中常见的几种分布

热门文章

  1. 2021_On Generating Plausible Counterfactual and Semi-Factual Explanations for Deep Learning
  2. LaTex字母上方箭头问题
  3. 白竹机器人_2015吉林下半年公务员考试行测试题答案解析(乙级)——判断推理...
  4. 教程 | 各省电力缺口有多大,看看这张电力大数据地图
  5. 虾米音乐:2月5日0点起停止音乐服务
  6. Planner 5D 4.1.11 特别版 Mac 家居室内设计软件
  7. 电源软启动的实用设计技巧
  8. 算法实验 最优二叉搜索树
  9. CMOS 器件版图 DUMMY 图形
  10. 你的脸是这样丢掉的:人脸数据集的史上最大规模调查