大数据 端到端

I came across an article from NVIDIA talking about their TPCx-BB benchmark results on A100. As a data scientist, I was immediately intrigued because I’m a big fan of the Transaction Processing Performance Council (TPC) benchmarks, which provide reasonable and objective performance metrics. Also, the TPC has clear rules about how their benchmarks are used and how results are reported to ensure that results from different vendors can be directly compared. I’ll say more about this later, but first let’s talk about the end-to-end data analytics workflow.

我碰到了NVIDIA的一篇文章,谈论了他们在A100上的TPCx-BB基准测试结果。 作为数据科学家,我立即被吸引,因为我非常喜欢事务处理性能委员会(TPC)基准,该基准提供了合理和客观的性能指标。 此外,TPC对于如何使用其基准以及如何报告结果有明确的规则,以确保可以直接比较来自不同供应商的结果。 稍后我将详细说明,但首先让我们谈谈端到端数据分析工作流。

I’ve drawn a rough sketch of the end-to-end data analytics workflow based on my experience as a data scientist (Figure 1). Not all of my data science projects pass through every stage of this workflow, but it represents the sum total of my projects. Consequently, my computing environment must be able to handle all stages, especially the early stages: OLTP (online transactional processing) and OLAP (online analytical processing). As every data scientist knows, by the time you get to modeling, the hard work is already done. OLTP deals with managing data stores, while OLAP deals mainly with information retrieval. TPCx-BB is mainly an OLAP benchmark.

根据我作为数据科学家的经验,我已经绘制了端到端数据分析工作流的粗略草图(图1)。 并非我所有的数据科学项目都贯穿此工作流程的每个阶段,但它代表了我的项目总数。 因此,我的计算环境必须能够处理所有阶段,尤其是早期阶段:OLTP(在线事务处理)和OLAP(在线分析处理)。 每个数据科学家都知道,到您进行建模时,辛苦的工作已经完成。 OLTP处理数据存储管理,而OLAP主要处理信息检索。 TPCx-BB主要是OLAP基准。

Figure 1. Rough breakdown of stages in the end-to-end data analytics workflow
图1.端到端数据分析工作流中各个阶段的大致分解

It’s always best to assess a computing environment using your specific workflows, but data science is highly variable. Analytics workflows change from one project to the next. A system architecture that performs well in one stage of the end-to-end workflow may perform poorly in another. Therefore, data analytics requires generality. This is why standard, off-the-shelf benchmarks like TPCx-BB are valuable.

始终最好使用特定的工作流程来评估计算环境,但是数据科学具有很大的可变性。 Analytics工作流程从一个项目更改为下一个项目。 在端到端工作流程的一个阶段中表现良好的系统体系结构在另一阶段中可能表现不佳。 因此,数据分析需要通用性。 这就是为什么像TPCx-BB这样的标准,现成的基准很有价值的原因。

The benchmarks shown in Table 1 were created by experts to objectively assess different stages of the end-to-end data analytics workflow. They’re easy to evaluate (i.e., most have built-in correctness evaluators), their performance metrics are clearly defined, and most offer auditing. To quote TPC, this helps “…protect users from misleading or false performance claims…” With that in mind, let’s return to NVIDIA’s TPCx-BB results.

表1中所示的基准是由专家创建的,目的是客观地评估端到端数据分析工作流的不同阶段。 它们易于评估(即,大多数具有内置的正确性评估器),明确定义了其绩效指标,并且大多数提供了审计。 引用TPC,这有助于“ ……保护用户免受误导或虚假的性能声明…… ”记住这一点,让我们返回NVIDIA的TPCx-BB结果。

Table 1. Standard benchmarks for the end-to-end data analytics workflow
表1.端到端数据分析工作流的标准基准

TPCx-BB is a big data benchmark that contains elements of OLAP and data modeling. It is designed to measure the performance of Apache Hadoop systems using a mix of 30 SQL queries, user-defined functions, and machine learning functions. NVIDIA posted their code on GitHub, so I took a look at their query implementations to see if they actually ran TPCx-BB. They didn’t.

TPCx-BB是包含OLAP和数据建模元素的大数据基准。 它旨在结合使用30个SQL查询,用户定义的函数和机器学习函数来衡量Apache Hadoop系统的性能。 NVIDIA在GitHub上发布了他们的代码,因此我看了看他们的查询实现,看他们是否真正运行过TPCx-BB。 他们没有。

First, they replaced Spark with Dask, which defeats the purpose of a Hadoop-based benchmark. Dask is a nice technology but Spark is far more common in data analytics workflows. Second, some of their query implementations ignored the user-defined and/or machine learning functions. Finally, they do not report the required TPCx-BB performance metrics: BBQpm (queries per minute throughput) and Price/BBQpm. The former is critical for a true assessment of overall performance because TPCx-BB models a system under load rather than the performance of isolated queries. The NVIDIA measurements ignore load and throughput, which isn’t realistic.

首先,他们用Dask代替了Spark,这违反了基于Hadoop基准测试的目的。 Dask是一项不错的技术,但Spark在数据分析工作流中更为常见。 其次,他们的某些查询实现忽略了用户定义的和/或机器学习功能。 最后,他们没有报告所需的TPCx-BB性能指标:BBQpm(每分钟吞吐量查询)和Price / BBQpm。 前者对于真实评估整体性能至关重要,因为TPCx-BB对负载下的系统进行建模,而不是对孤立查询的性能进行建模。 NVIDIA的测量忽略了负载和吞吐量,这是不现实的。

The current, audited TPCx-BB results (as of September 25, 2020) from several major hardware vendors are shown in Figure 2. All of their benchmarking systems used Intel Xeon processors at various scale factors and price points. There is no current or historical data for NVIDIA processors.

图2中显示了来自几个主要硬件供应商的最新,经审计的TPCx-BB结果(截至2020年9月25日)。他们所有的基准测试系统均使用了各种比例因子和价格点的Intel Xeon处理器。 没有NVIDIA处理器的当前或历史数据。

http://www.tpc.org/tpcx-bb/results/tpcxbb_perf_results5.asp, used with permission from TPC)http ://www.tpc.org/tpcx-bb/results/tpcxbb_perf_results5.asp,经TPC许可使用)

While I applaud NVIDIA’s attempt to use a standard, off-the-shelf benchmark like TPCx-BB, please run the actual benchmark suite and report the primary metrics — if you can. As I said above, the TPC has strict rules about how their benchmarks are used:

我为NVIDIA尝试使用标准的现成基准(如TPCx-BB)表示赞赏,但请运行实际的基准套件并报告主要指标(如果可以)。 就像我在上面所说的,TPC对基准的使用有严格的规定:

“…it should be noted that the TPC benchmark specifications and policies require the submittal of complete documentation on these tests, which are then reviewed by the TPC Council. If a vendor’s TPC benchmark test is determined to be executed improperly or unfairly, a vendor will have to withdraw the result and can no longer use that result publicly. These rules protect users from misleading or false performance claims and preserves the credibility of TPC benchmark results.” (Source: Running a TPC Benchmark)

“……应注意,TPC基准规范和政策要求提交有关这些测试的完整文档,然后由TPC理事会进行审查。 如果确定供应商的TPC基准测试不正确或不公平地执行,则供应商将不得不撤回该结果,并且无法再公开使用该结果。 这些规则可以保护用户免受误导或虚假的性能要求,并保持TPC基准测试结果的可信度。” (来源:运行TPC基准测试)

I’ve taken NVIDIA to task once before for using contrived tests to represent an entire stage of the end-to-end workflow:

之前,我已经让NVIDIA承担了一次任务,以便使用人为设计的测试来代表端到端工作流程的整个阶段:

Don’t be fooled. Generality is critical in data science. Xeon-based systems scale better and provide best performance and TCO for the end-to-end data analytics workflow.

不要上当。 通用性在数据科学中至关重要。 基于Xeon的系统可更好地扩展,并为端到端数据分析工作流提供最佳性能和TCO。

翻译自: https://medium.com/intel-analytics-software/end-to-end-data-analytics-performance-7375000bc13e

大数据 端到端


http://www.taodudu.cc/news/show-3758306.html

相关文章:

  • YOLO系列端到端加速方案
  • 初学者指南端到端测试
  • 端到端学习
  • Flink端到端一致性
  • 计算机网络端到端进程到进程,计算机网络:端到端协议
  • 端到端时延
  • 端到端流程打通企业经脉
  • 端到端拉通
  • TLS与端到端加密
  • 端到端图像编码和VVC的结合
  • 第07节:端到端测试的优化策略
  • ICASSP2021:端到端的图像编码方法
  • 端到端训练 联合训练_图分解的端到端学习
  • “端到端”是什么意思
  • 端到端(end-to-end)的含义
  • smtplib python_python邮件发送smtplib使用详解
  • smtplib发送邮件
  • 理解Python模块smtplib
  • python3.7 smtplib_python3 smtplib发送邮件
  • smtplib 发送邮件
  • smtplib python教程_Python smtplib 教程
  • python smtplib模块_Python模块学习 ---- smtplib模块
  • python smtplib模块_python实现邮件接口——smtplib模块
  • python smtplib模块_Python smtplib模块详解:发送邮件
  • Python - smtplib 发送 Excel 邮件与数据展示
  • smtplib python教程_Python模块入门教程之smtplib 邮件发送
  • smtplib python_python:利用smtplib模块发送邮件
  • smtplib python_python使用电子邮件模块smtplib的方法
  • smtplib python_python模块smtplib学习
  • smtplib python_smtplib —SMTP协议客户端

大数据 端到端_端到端数据分析性能相关推荐

  1. 关于大数据技术的演讲_大数据以及大数据技术都包括哪些内容

    大数据经过多年的发展,目前在概念上已经有了更多的含义,从不同的角度来看待大数据也会有不同的定义,但是总的来说,大数据可以用三个方面来进行概括,其一是"新的价值领域";其二是&quo ...

  2. 光环大数据spark文档_推荐大数据Spark必读书目

    我有一个非常要好的同事,无数次帮我解决了业务上的痛.技术能力很强,业务方面也精通.而且更耐得住加班,并且是自愿加班,毫无怨言.不像我,6点到准时走人了.但就是这么一位兢兢业业的技术人,却一直没有升职加 ...

  3. BS1064-基于大数据存储实现互联网电子商城网站及数据分析系统

    本基于大数据存储实现互联网电子商城网站及数据分析系统,系统主要采用java,hbase,springboot,mysql,mybatis,商品推荐算法,数据分析存储技术,实现基于互联网商品实现针对用户 ...

  4. 王家林大咖新书预发布:清华大学出版社即将出版《Spark大数据商业实战三部曲:内核解密|商业案例|性能调优》第二版 及《企业级AI技术内幕讲解》

    王家林大咖新书预发布:清华大学出版社即将出版<Spark大数据商业实战三部曲:内核解密|商业案例|性能调优>第二版,新书在第一版的基础上以Spark 2.4.3版本全面更新源码,并以Ten ...

  5. 分析引领未来——2017年中国大数据与分析创新大会暨第五届中国数据分析行业峰会

    随着大数据全球战略布局的全面升级,大数据发展从概念推广进入到全面落地的转折期.2017年,对大数据的讨论不再停留于宽泛的概念,技术创新的热忱也在削减,随着大数据技术寒冬的来临,数据应用的春天指日可待. ...

  6. 中科院文思海辉IBM共建大数据研究生人才培养体系 瞄准中高端人才

    由中国科技服务旗舰企业文思海辉,联手国内顶尖研究生院 -- 中国科学院大学研究生院.全球顶级IT巨头IBM三方共同建设的"中国科学院大学-IBM-文思海辉联合工程硕士大数据研究生班" ...

  7. 大数据架构详解_【数据如何驱动增长】(3)大数据背景下的数仓建设 amp; 数据分层架构设计...

    背景 了解数据仓库.数据流架构的搭建原理对于合格的数据分析师或者数据科学家来说是一项必不可少的能力.它不仅能够帮助分析人员更高效的开展分析任务,帮助公司或者业务线搭建一套高效的数据处理架构,更是能够从 ...

  8. 大数据 java 代码示例_功能Java示例 第7部分–将失败也视为数据

    大数据 java 代码示例 这是称为" Functional Java by Example"的系列文章的第7部分. 我在本系列的每个部分中开发的示例是某种"提要处理程序 ...

  9. 大数据项目开发案例_大数据开发相关术语解析

    Java['dʒɑːvə] 当前软件开发行业应用最广.就业量最大的编程语言,在各类编程语言排行榜长期位列第一.是企业软件开发的首选语言,也是Android系统的开发语言. Java吸取了C++语言的众 ...

  10. 大数据云计算技术概述_云计算–概述,类型,优势和未来范围

    大数据云计算技术概述 Cloud Computing is a type of online on-demand service that includes resources like comput ...

最新文章

  1. 生产管理车间提高劳动利用率
  2. Nhibernate 基础关系映射
  3. skywalking 安装_如何使用skywalking 进行全链路监控
  4. ubuntu 16gcc g++版本降级
  5. 微软开放Holographic平台,意在统一VR的操作系统?
  6. 基于Python的卷积神经网络和特征提取(Theano)
  7. 【自动驾驶】LQR控制实现轨迹跟踪
  8. 【FPGA】DS18B20温度显示
  9. 金融信息化及交易管理系统(股票交易系统APP)
  10. 微信 小程序 python 渲染_微信小程序python用户认证的实现
  11. Blender建模(二)
  12. 破解Esxi服务器中Windows虚机密码(Esxi服务器Windows虚拟机忘记密码解决方案)
  13. 解决ios微信公众号h5页面新增底部前进后退导航栏产生的布局问题
  14. 基于Java+SpringBoot+Thymeleaf+Mysql医院预约挂号系统设计与实现
  15. Java 处理资源的try语句 (try-with-resources, TWR)
  16. 软件评测师考试学习计划
  17. 解读京东“拉黑门”:被拐弯的真相
  18. error: failed to push some refs to ‘https://gitee.com/wangdxstudy/mygirl.git‘解决办法
  19. SLAM-Visual Navigation学习之SIFT算法与代码详解
  20. 记一次注销联通卡的吐血经历

热门文章

  1. java做校园一卡通技术_基于JAVACARD校园一卡通设计及实现.doc
  2. RPR技术介绍-ielab
  3. 【ros2订阅报错】 ros2 forming pointer to reference type ‘const std::shared_ptr<const sensor_msgs::msg::Las
  4. 使用http的asp.net项目接入https的CAS单点登录系统
  5. 【论文解读】Machine learning at the service of meta-heuristics for solving cop : A state-of-the-art
  6. 数迹智能 VisionChina(上海)2020 展精彩回顾
  7. TypeError: undefined is not an object (evaluating '_react.default.defaultProps.object') - RN
  8. OAI搭建 SIM卡(2018-11更新版)
  9. matlab 工作空间 变量太多,清空MATLAB工作空间内所有变量的指令是( )
  10. wordpress-Ashade摄影作品展示相册 v2.0主题模板