前言:大数据领域的性能测试Benchmark介绍,需要的可以看看!

一、Benchmark简介

Benchmark是一个评价方式,在整个计算机领域有着长期的应用。正如维基百科上的解释“As computer architecture advanced, it became more difficult to compare the performance of various computer systems simply by looking at their specifications.Therefore, tests were developed that allowed comparison of different architectures.”Benchmark在计算机领域应用最成功的就是性能测试,主要测试负载的执行时间、传输速度、吞吐量、资源占用率等。

二、Benchmark的组成

Benchmark的核心由3部分组成:数据集、 工作负载、度量指标。

1、数据集
数据类型分为结构化数据、半结构化数据和非结构化数据。由于大数据环境下的数据类型复杂,负载多样,所以大数据Benchmark需要生成3种类型的数据和对应负载。

1)结构化数据:传统的关系数据模型,可用二维表结构表示。典型场景有电商交易、财务系统、医疗HIS数据库、政务信息化系统等等;

2)半结构化数据:类似XML、HTML之类,自描述,数据结构和内容混杂在一起。典型应用场景有邮件系统、Web搜索引擎存储、教学资源库、档案系统等等,可以考虑使用Hbase等典型的KeyValue存储;

3)非结构化数据:各种文档、图片、视频和音频等。典型的应用有视频网站、图片相册、交通视频监控等等。

2、工作负载
互联网领域数据庞大,用户量大,成为大数据问题产生的天然土壤。对工作负载理解和设计可以从以下几个维度来看
1)密集计算类型:CPU密集型计算、IO密集型计算、网络密集型计算;

2)计算范式:SQL、批处理、流计算、图计算、机器学习;

3)计算延迟:在线计算、离线计算、实时计算;

4)应用领域:搜索引擎、社交网络、电子商务、地理位置、媒体、游戏。

3、度量指标
性能高估的两大利器就是Benchmark和Profile工具。Benchmark用压力测试挖掘整个系统的性能状况,而Profile工具最大限度地呈现系统的运行时状态和性能指标,方便用户诊断性能问题和进行调优。

1)工具的使用
a)在架构层面:perf、nmon等工具和命令;

b)在JVM层面:btrace、Jconsole、JVisualVM、JMap、JStack等工具和命令;

c)在Spark层面:web ui、console log,也可以修改Spark源码打印日志进行性能监控。

2)度量指标
a)从架构角度度量:浮点型操作密度、整数型操作密度、指令中断、cache命中率、TLB命中;

b)从Spark系统执行时间和吞吐的角度度量:Job作业执行时间、Job吞吐量、Stage执行时间、Stage吞吐量、Task执行时间、Task吞吐量;

c)从Spark系统资源利用率的角度度量:CPU在指定时间段的利用率、内存在指定时间段的利用率、磁盘在指定时间段的利用率、网络带宽在指定时间段的利用率;

d)从扩展性的角度度量:数据量扩展、集群节点数据扩展(scale out)、单机性能扩展(scale up)。

三、Benchmark的运用

1、Hibench:由Intel开发的针对Hadoop的基准测试工具,开源的,用户可以到Github库中下载

2、Berkeley BigDataBench:随着Spark的推出,由AMPLab开发的一套大数据基准测试工具,官网介绍

3、Hadoop GridMix:Hadoop自带的Benchmark,作为Hadoop自带的测试工具使用方便、负载经典,应用广泛

4、Bigbench:由Teradata、多伦多大学、InfoSizing、Oracle开发,其设计思想和利用扩展具有研究价值,可以参阅论文Bigbench:Towards an industry standard benchmark for big data analytics。

5、BigDataBenchmark:由中科院研发,官方介绍

6、TPC-DS:广泛应用于SQL on Hadoop的产品评测

7、其他的Benchmark:Malstone、Cloud Harmony、YCSB、SWIM、LinkBench、DFSIO、Hive performance Benchmark(Pavlo)等等

大数据领域的性能测试Benchmark介绍相关推荐

  1. 大数据领域各职业介绍与发展路线

    目录 一.大数据是什么 二.大数据具体都做些什么 三.大数据领域有哪些职业 四.自己该选择哪个职业方向 五.各职业的成长和发展路线 六.最后 一.大数据是什么 自己在互联网大数据行业已有多年工作经验, ...

  2. 大数据领域75个核心术语讲解!

    ↑↑↑关注后"星标"Datawhale 每日干货 & 每月组队学习,不错过 Datawhale干货 选自:DataConomy,来源:机器之心 近日,Ramesh Dont ...

  3. 7月17日云栖精选夜读:深度 | 两个案例,掌握AI在大数据领域的前沿应用

    近日,全球技术学习技术大会首次在京举行,阿里巴巴数据技术及产品部资深算法专家杨红霞(鸿侠)作为特邀嘉宾出席并发表主题演讲.鸿侠从什么是数据新能源说起,接着介绍了阿里目前比较成功的两款数据产品,一个是是 ...

  4. 你应该知道的大数据领域12大动向

    最近这几周大数据领域可谓动作频频,初创公司和老牌企业都纷纷发布新品,更新或改进现有的产品系列,以及达成战略性关系. 行业观察人士表示,许多企业拿来试点阶段的大数据系统(尤其是那些整合Hadoop平台的 ...

  5. 大数据入门及各类技术介绍

    大数据入门及各类技术介绍 大数据架构 数据采集 数据存储 数据处理 数据应用 前言: 由于之后工作需要了解部分大数据相关技术,现将查阅的资料整理汇总 只列出主要技术介绍供大家入门查看,不包含具体使用和 ...

  6. 2020大数据领域十大必读书籍

    相信身边有很多应届毕业生以及想转行大数据的,状态大多都是:万脸懵逼. 老司机教你:看书.写代码.多交流. 2020你看了几本书呢?小编为大家精心挑选了大数据领域里十本有价值的书,先干掉这几本书,再和老 ...

  7. 2019大数据领域十大必读书籍

    相信身边有很多应届毕业生以及想转行大数据的,状态大多都是:万脸懵逼. 老司机教你:看书.写代码.多交流. 2019你看了几本书呢?小编为大家精心挑选了大数据领域里十本有价值的书,先干掉这几本书,再和老 ...

  8. 大数据领域十大必读书籍

    2017大数据领域十大必读书籍 chenjj 2017-07-12 大数据, 热门新闻 2,759 views 0 历史大浪淘沙经过5次信息革命,终于迎来大数据时代,给信息领域灌入了强劲的血液,催生了 ...

  9. 2017大数据领域十大必读书籍

    历史大浪淘沙经过5次信息革命,终于迎来大数据时代,给信息领域灌入了强劲的血液,催生了很多新生力量,而各行各业谁也无法离开数据存活.尤其近几年来,全球范围内掀起了一股"大数据"热,各 ...

最新文章

  1. android项目中记录ListView滚动停止位置与设置显示位置
  2. 2021-04-28 Python可视化图表生成-Matplotlib绘图
  3. AbstractQueuedSynchronizer 原理分析 - Condition 实现原理
  4. django_rest_framework之GenericAPIView(一)源码讲解
  5. 怎么用latex写ppt呢?
  6. 【网络流24题】No.7 试题库问题 (最大流,二分图多重匹配)
  7. ByteArrayOutputStream和ByteArrayInputStream的简单使用
  8. day17 Java的object中常见的方法以及内部类
  9. Filebeat 输出日志时添加客户端 IP 地址(引用变量)
  10. OpenCV之滑动条的创建和使用
  11. PreferenceScreen修改背景颜色
  12. 信号转换 | 如何将正弦波转换成方波?
  13. html5搜狗浏览器缓存文件夹,搜狗浏览器中怎么查找之前看过的视频文件?
  14. Java 和python多态区别_python面向对象之多态鸭子类型与Java的比较
  15. DBeaver出现:The Network Adapter could not establish the connection 已解决
  16. 【Scikit-Learn 中文文档】处理文本数据 - scikit-learn 教程 | ApacheCN
  17. masked_fill_() - masked_fill() - v1.5.0
  18. java tcp门禁_门禁控制器的TCP/IP协议功能
  19. C# Winform控件库分享,免费开源,支持中文!(附DLL及教程)
  20. 笔试逻辑智力题找规律题总结4

热门文章

  1. 计算机应用基础实训室,计算机应用基础实训
  2. repost 双非本科到腾讯的编程奋斗之路
  3. formData上传Excel文件[object object ]数据库接收不到数据
  4. CleanMyMac X4.10.6mac上非常强大的系统清理工具
  5. EyouCMS响应式幽默笑话搞笑短文网站模板/资讯类文章发布网站模板
  6. UTF-8与UTF-8 without BOM
  7. 夏天一直流汗,做近视矫正手术会有影响吗?
  8. 长期一个人独自生活会怎么样?
  9. 如何把新加的分区挂载到 根目录
  10. JavaWeb--邮件发送(web注册邮件,纯文本邮件,带图片邮件,带附件邮件)