5h42min??12G的600万行的表,怎么会需要近6个小时才能计算完行数??MapReduce不是号称是云计算的基石么?性能怎会如此之差?

经过分析,发现12G的这个“TestTable”表的数据在4个节点是如下分布的。可以看到DataNode1的数据量有2.3G,虽然比DataNode3和DataNode4数据量小,但是由于DataNode1是vm,其所依赖的ESXI总共才8G内存(ESXI总共运行5台虚拟机),所以虽然号称是4G内存,但是根本就分不到4G的内存。这4G内存很大一部分使用的是ESSI kernel为其划分的Swap空间。

而经过观察发现,Task attempt_201110251718_0001_m_000014_0 failed to report status for 602 seconds. Killing! 的信息都出现在DataNode1上面。监控DataNode1的性能,发现如下所示,负载高达10,已经严重超过此虚拟机的load上限。

利用Ganglia监控Cluster的性能,可以看到如下图

下面两个图分布是上图的datanode1 memory last hour和datanode1 cpu last hour

上图可以发现datanode1已经在使用系统的swap分区

上图可以发现datanode1的cpu 使用率很高(蓝色区域是用户使用的,×××是Nice,红色是系统使用的,橙色是wait),而idle已经不足5%了

2台虚拟机+2台物理机,物理机配置也不算太差,但是计算结果怎么会如此之差?经过查阅,发现hadoop的官网有这么一句话,

The short answer is dual processor/dual core machines with 4-8GB of RAM using ECC memory, depending upon workflow needs。这就是它的建议配置,双核cpu,4-8G内存。

后记:在这个实验的第二天,我又加了一台2cpu,2G内存的物理机,总共5台节点,计算下来,总共耗时4h20min。抛开性能数据不说,可以看到确实随着节点的增加,计算速度也是增长的。

ps:测试部的同事他使用test程序,运算1200万行的一个表,总共耗时12min。但是他的hadoop环境配置都是实体机,但并不是服务器。

转载于:https://blog.51cto.com/taotao1240/698504

hadoop初探--性能分析2相关推荐

  1. 从 ES 到 Kylin,斗鱼客户端性能分析平台进化之旅

    一.背景 斗鱼是一家面向大众用户的在线直播平台,每天都有超大量的终端用户在使用斗鱼各客户端参与线上互动.伴随业务的迅猛发展,斗鱼需要对客户端采集到的性能数据进行统计和分析,开发出具有多维度分析图表和数 ...

  2. Hadoop 实战之分析专利引用数据集(三)

    大家好,今天我们在Hadoop 实战之分析专利引用数据集(一)的基础上来实现计算专利被引用的次数 许多外行人认为统计学就是数量统计,并且许多基本的Hadoop Job就是用于统计数量的.我们已经在第一 ...

  3. MySQL 进阶 索引 -- SQL性能分析(SQL执行频率:查看当前数据库的INSERT、UPDATE、DELETE、SELECT的访问频次、慢查询日志、 profile详情、explain)

    文章目录 1. SQL性能分析 1.1 SQL执行频率(可以查看当前数据库SQL的访问频次) 1.2 慢查询日志(可以记录用时较长的SQL) 1.2.1 开启慢查询日志 1.2.2 慢查询日志测试 1 ...

  4. kafka原理和性能分析测试

    1.Kafka写数据流程: producer先从zookeeper的broker-list的节点找到partition(分区)的leader: producer将消息发送给该leader的partit ...

  5. Go 学习笔记(81)— Go 性能分析工具 pprof

    Go 语言工具链中的 go pprof 可以帮助开发者快速分析及定位各种性能问题,如 CPU消耗 .内存分配及阻塞分析 .具体作用如下: 性能分析首先需要使用 runtime.pprof 包嵌入到待分 ...

  6. App性能分析数据监控

    App性能分析数据监控 APP的性能监控包括: CPU 占用率.内存使用情况.网络状况监控.启动时闪退.卡顿.FPS.使用时崩溃.耗电量监控.流量监控等等. 文中所有代码都已同步到github中,有兴 ...

  7. Tesla T4视频编码性能分析

    Tesla T4视频编码性能分析 从开普勒开始的所有 NVIDIA GPUs 都支持完全加速的硬件视频编码: GPUs 支持完全加速的硬件视频解码.最近发布的图灵硬件提供了张量核心和更好的机器学习性能 ...

  8. Yolov4性能分析(下)

    Yolov4性能分析(下) 六. 权重更新 "darknet/src/detector.c"–train_detector()函数中: ....../* 开始训练网络 */floa ...

  9. Yolov4性能分析(上)

    Yolov4性能分析(上) 一.目录 实验测试 1) 测试介绍 2) Test 3) Train 二.分析 1.实验测试 1 实验测试方法 Yolov4训练train实验方法(Darknet shou ...

最新文章

  1. arduino与DS1302时钟调试失败的分析
  2. -%3erow mysql_MySQL查询优化
  3. 清空临时表oracle,【Oracle相关】Oracle中如何清空临时表空间
  4. 使用jsp实现文件上传的功能
  5. html div图片定位,html中div定位练习
  6. redhat7.3 启动系统报,A start job is running for Apply Kernel Variables的处理
  7. ibm服务器安装系统后黑屏,i52430m装win10系统重启电脑进入会黑屏修复方法
  8. Jetson Nano编译opencv-python和opencv-contrib-python
  9. ssm框架验证码图片加载不出_基于SSM框架的文件图片上传/下载功能实现
  10. 天锋w2019_三星看了想打人,华强北神机天锋W2019现世,专卖店都难辨真假
  11. latex表格排版指南
  12. 工业级卡轨式4g路由器
  13. 数据链路层的基本功能简单总结
  14. 互联网打印机协议IPP分析
  15. 诈金花游戏单机版 附开源地址
  16. 31、Java——JDBC实现账号密码登录
  17. MTK 安卓11 传感器兼容 陀螺仪42607-p
  18. 微信小程序的数据绑定
  19. 宝塔php memory_limit,优化宝塔面板提高网站运行速度教程
  20. 京东云无线宝可以服务器吗,京东云无线宝哪种上网方式收益最高,这点你一定得知道...

热门文章

  1. conda创建和使用python的虚拟环境
  2. 下个乳业蓝海风口 竟很可能是低温鲜奶?
  3. 万元大奖邀您参与阿里云数加 MaxCompute最佳实践征文大赛
  4. Vuex之理解Store
  5. Netty源码解读(一)概述
  6. NetofficeSystem协同办公系统今日发布
  7. javaScript技巧表:单提交验证类[转载]
  8. LCA RMQ+ST表学习笔记
  9. JavaScript设计模式之创建型设计模式
  10. Spring 整合 Disruptor 第一个版本