近两年互联网行业动不动就喊着“大数据”的口号,大数据的诞生让很多企业节省人力物力实现精准营销获得丰厚利润。随着数据工程和数据分析技术的不断进步,大数据测试不可避免。

大数据是用于大量结构化或非结构化数据的术语,这些数据有可能提供一些信息。谈论大数据时,具体的数据量无从告之,但通常都是拍字节(Petabytes)和艾字节(Exabytes)数量级的。如此大量的数据很难集成。大数据,活泼的快速移动数据,有助于更好地了解客户和产品,从而带动业务增长。尽管有许多技术可用,技术人员仍然很难找出从哪里开始。

大数据测试

测试大数据应用程序更多的是验证其数据处理,而不是测试软件产品的个别功能。当涉及到大数据测试时,性能和功能测试是关键。在大数据测试中,QA工程师使用集群和其他组件来验证对TB级数据的成功处理。因为处理非常快,所以它需要高水平的测试技能。

大数据应用程序的测试更多的是去验证其数据处理而不是验证其单一的功能特色。当然在大数据测试时,功能测试和性能测试是同样很关键的。对于大数据测试工程师而言,如何高效正确的验证经过大数据工具/框架成功处理过的至少百万兆字节的数据将会是一个巨大的挑战。因为大数据高效的处理测试速度,它要求测软件工程师具备高水平的测试技术才能应对大数据测试。

大数据处理的三个特性:1)大批量 2)实时性 3)可交互。另外,数据质量也同样是大数据测试的一个重要维度。

因此在进行应用程序测试之前,必须确保数据质量,并且考虑把数据质量作为数据库测试的一部分。涉及数据的各种特性的检验,例如一致性、准确性、重复性、连贯性、有效性及完整性等等。

大数据应用测试大体可以分为三步骤:

步骤一:数据阶段验证

大数据测试的第一步,也称作pre-hadoop阶段该过程包括如下验证:

1)来自各方面的数据资源应该被验证,来确保正确的数据被加载进系统。

2)将源数据与推送到Hadoop系统中的数据进行比较,以确保它们匹配。

3)验证正确的数据被提取并被加载到HDFS正确的位置。

该阶段可以使用工具Talend或Datameer,进行数据阶段验证。

步骤二:"MapReduce"验证

大数据测试的第二步是MapReduce的验证。在这个阶段,测试者在每个节点上进行业务逻辑验证,然后在运行多个节点后验证它们,确保如下操作的正确性:

1)Map与Reduce进程正常工作。

2)在数据上实施数据聚合或隔离规则。

3)生成键值对。

4)在执行Map和Reduce进程后验证数据。

步骤三:输出阶段验证

大数据测试的最后或第三阶段是输出验证过程。生成输出数据文件,同时把文件移到一个EDW(Enterprise Data Warehouse:企业数据仓库)中或着把文件移动到任何其他基于需求的系统中。在第三阶段的活动包括:

1)检查转换(Transformation)规则被正确应用。

2)检查数据完整性和成功的数据加载到目标系统中。

3)通过将目标数据与HDFS文件系统数据进行比较来检查没有数据损坏。

总结:

1)大数据测试不同于传统的测试,不仅仅是类型、策略的不同,工具等具体技术都会有区别。

2)大数据因其复杂性,其测试所面临的挑战也会不同于传统的测试。

3)大数据性能测试将会是软件测试工程师进一步艰难攻克的目标之一。

什么是大数据测试?大数据测试实现步骤有哪些?相关推荐

  1. 大数据测试类型,学习步骤

    1.什么是大数据 大数据是一个大的数据集合,通过传统的计算技术无法进行处理.这些数据集的测试需要使用各种工具.技术和框架进行处理.大数据涉及数据创建.存储.检索.分析,而且它在数量.多样性.速度方法都 ...

  2. 2021年大数据基础(四):​​​​​​​​​​​​​​​​​​​​​大数据业务分析基本步骤

    2021大数据领域优质创作博客,带你从入门到精通,该博客每天更新,逐渐完善大数据各个知识体系的文章,帮助大家更高效学习. 有对大数据感兴趣的可以关注微信公众号:三帮大数据 目录 大数据业务分析基本步骤 ...

  3. 大数据标签获取处理步骤_大数据处理分为哪些步骤

    具体的大数据处理方法确实有很多,但是根据笔者长时间的实践,总结了一个普遍适用的大数据处理流程,并且这个流程应该能够对大家理顺大数据的处理有所帮助.大数据来源广泛,应用需求和数据类型都不尽相同,不过最基 ...

  4. 《PPT高手之道:六步变身职场幻灯派》一0.4 PPTology的3大阶段、6个步骤、24个模块...

    本节书摘来异步社区<PPT高手之道:六步变身职场幻灯派>一书中的第1章,第0.4节,作者: 钱永庆 责编: 王峰松,更多章节内容可以访问云栖社区"异步社区"公众号查看. ...

  5. 处理大数据的四个步骤

    处理大数据的四个步骤: 收集:原始数据种类多样,格式.位置.存储.时效性等迥异.数据收集从异构数据源中收集数据并转换成相应的格式方便处理. 存储:收集好的数据需要根据成本.格式.查询.业务逻辑等需求, ...

  6. 进入Google十大排名的10个步骤

    大部分网站管理员都会因自己的网站进入了Google的十大排名而兴奋不已,理由很简单,因为Google是互联网上最主要的搜索引擎,它能给你带来最多的流量. 更重要的是,这些网站管理员也会告诉你,进入了G ...

  7. 大数据爬虫技术基础篇:大快在线爬虫安装步骤

    2019独角兽企业重金招聘Python工程师标准>>> 在线爬虫是大快大数据一体化开发框架的重要组成部分,本篇重点分享在线爬虫的安装. 爬虫安装前准备工作:大快大数据平台安装完成.z ...

  8. 算法时间复杂度分析——大O、大Ω、大θ、小o,小ω

    最近开始转战传统算法分析的研究工作了,重新拾起以前学过的一些内容. 目录 一.概述 二.对常见的Ο和Ω进行分析 2.1 大O表示法 2.2 大Ω表示法 三.P问题,NP问题,NP-hard问题,NPC ...

  9. 算法分析:大O符号/大Ω符号/大Θ符号/小o符号/小w符号

    感谢作者分享,原文链接:http://blog.csdn.net/u012816041/article/details/49888631 大O,渐进表示法,接下来我尝试用最简单的方式进行说明. 学习算 ...

  10. 大数据 - 大数据开发技术课程总结(未完)

    1.课程介绍 大数据开发课程主要从了解大数据概念.特征开始,再介绍大数据Java开发和Hadoop的环境配置,较为全面地讲解了HDFS分布式存储,MapReduce分布式计算框架,Spark平台开发和 ...

最新文章

  1. laravel5.2基础多模块开发(pingpong/modules)
  2. Swift基础之闭包
  3. js碎片知识的学习与补充(parseint与ChildNodes属性)
  4. Django框架基础知识05-自定义模板标签与过滤器
  5. 计算机的病毒防治教案,计算机病毒及其防治教案.doc
  6. Wannafly挑战赛22 C 多项式(大数,多项式极限)
  7. c 富文本html编辑器,富文本HTML编辑器UEditor
  8. matlab+adst,SPC572L64E3 - 用于汽车动力系统应用的32位Power Architecture MCU - STMicroelectronics...
  9. Android:解决魅族5在Logcat下不输出Log.v()日志
  10. mysql搜索所有表,mySQL查询来搜索数据库中的所有表以查找字符串?
  11. [Unity] Unity3D研究院编辑器之自定义默认资源的Inspector面板
  12. Android安全防护之旅---Android应用反调试操作的几种方案解析
  13. 快速开发微信小程序直播--微信直播--小程序直播开发
  14. 一、项目分析(华为项目管理法-孙科炎读书摘要)
  15. 使用ant design遍历多选组件时,选择一个,所有便利的选择器都进行了选择。
  16. 惊人!葵花宝典的创始人居然是段誉
  17. CF1091F New Year and the Mallard Expedition
  18. 修改Android系统默认时间
  19. 熊孩子乱敲键盘攻破linux桌面,“熊孩子”乱敲键盘就攻破了 Linux 桌面,大神:17 年前我就警告过你们...
  20. 计算机视觉之环境探索

热门文章

  1. string 中文乱码
  2. 用python画的炫酷图形_太秀了,没想到这些既炫酷又能动的图竟然是用 Python 画的!...
  3. Babel的presets和plugins笔记
  4. 将js中console.log打印的内容输出保存到txt文件的简单方法
  5. Java游戏源码大礼包
  6. linux 模拟打电话,Ubuntu+Python+UIAutomator写Android自动化测试脚本-模拟拨打电话
  7. Spring TransactionManager
  8. git删除本地分支和线上分支
  9. android N上收到未接来电,没有LED灯闪烁提示,在M上是ok的.
  10. Gradle学习(二十)——多项目构建详解