随着数据驱动的决策现在需要几乎即时的洞察力,数据仓库的性能是至关重要的,现在供应商之间的竞争基准是血腥的。一个鲜为人知的秘密是,可扩展的性能(查询延迟、并发性、加载/测试速度)总是可以实现的--如果你能为它付费的话。

传统的平台供应商提供昂贵的、不灵活的架构来执行这样的需求,这些架构需要不断地进行扩展升级和性能调整。同样,纯云供应商(例如Snowflake)将他们的业务建立在公共云基础设施和基于消费的定价上,这让他们没有动力,也没有能力提供良好的性价比(又称,你花钱买的性能)。"第一次试用总是免费的",但一旦你需要为超过10个用户提供可靠的良好性能时,请注意你的钱包。

我们认为,客户应该得到更好的服务。让我们深入了解一下。

设计的目的

历史告诉我们,可扩展的性能需要专门的基础设施来快速处理数据。打个比方,想想一条多车道的高速公路,经常有大量的交通。如果你是一个交通工程师,你有两个选择来增加汽车的吞吐量。

- 建立更多的车道。这种方法可以无限扩展,但非常昂贵,而且会消耗大量的空间。

- 取消所有的交叉口,尽量减少转弯,并保持平坦的路面。这种方法通常会使交通流更快,但它是高度复杂和劳动密集型的。

但是,即使你做了这些事情中的一个(或两个),糟糕的司机和缓慢或不可靠的车辆仍然会导致延误。只有当所有的司机都是专业的,所有的汽车都是快速和可靠的,道路得到很好的维护,并且汽车的数量与公路的宽度得到仔细的平衡时,才有可能实现最佳的流量。这种策略最大限度地减少了空间,优化了吞吐量,降低了成本,并提高了安全性。显然,你不会从一个很少考虑这些结果的通用方法中得到这些。

只有当所有的司机都是专业的,所有的汽车都是快速和可靠的,道路得到很好的维护,并且汽车的数量与公路的宽度得到仔细的平衡时,才有可能实现最好的流动。

这就是为什么数据处理的价格/性能突破总是来自于工程系统。通用基础设施,如Snowflake和其他公共云选择使用的基础设施,不能提供多核CPU所需的所有数据,以实现快速的数据处理规模--所以对更多计算的无尽需求为客户创造了一个价格/性能墙。回到我们的比喻,只有将系统创新(简化道路)与软件功能(如高级工作负载管理)相结合的工程解决方案(隔离不良司机/低速车辆并智能控制汽车数量)才能避免这堵墙。

交通工程问题:建造更多的车道或消除瓶颈是昂贵、复杂和/或劳动密集型的,但仍然可能无法改善交通流量 

价格/性能的障碍

像Netezza、Teradata和Oracle这样的老牌企业通过建立设备采取了工程系统的方法,其中一些设备一度成为性能的黄金标准。问题是,他们从来没有对他们的架构进行现代化改造,以便以更低的价格提供更好的性能,而是要求客户通过昂贵的维护和升级来加倍使用老化的平台。

但这是像Snowflake这样的纯公有云供应商没能学到的教训。如果没有硬件加速器,提供峰值性能的唯一方法是以峰值价格旋转更多的虚拟机。(你必须旋转多少个虚拟仓库才能保证你的Snowflake不被融化)。) 公共云供应商已经承认了原始性能的挑战,为他们自己的服务提供裸机实例和定制加速器,但只是价格昂贵。(2020年12月7日编辑。而现在,甚至AWS也开始参与其中,并表现出明显的热情)。)

由于这些陷阱,数据仓库评估人员必须非常关注价格/性能。否则,随着他们的要求,如数据量和终端用户数量的增加,他们最终将支付远远超过预期的费用。

拒绝错误的选择

好消息是,你不再需要在昂贵的、扩大规模的传统平台(整顿道路)和昂贵的、仅有公共云的选项(建立更多的车道)之间做出错误的选择。相反,你可以用Yellowbrick数据仓库解决性价比问题,这是第一个为从TB级到PB级数据的内存速度而设计的数据仓库PaaS,在存储、内核/驱动程序、数据路径和数据库层进行了优化。通过这种方法,消除了与传统架构相关的查询延迟、处理能力和并发性方面的限制。由于高密度闪存和NVMe存储,Yellowbrick解决方案还具有极高的成本效益,使价格--以及运营费用(如果适用)--远远低于其他方案。其结果是一个无与伦比的性价比。

说到消除错误的选择,有了Yellowbrick,你也不需要在内部部署和基于云的部署之间做出选择。我们独特的统一混合架构让用户可以在任何地方通过普通的商业智能/分析/数据科学工具访问你的数据仓库--在防火墙内或同时从多个公有云中--在任何地方都有相同的数据和性能。

在数据仓库方面,你有比五年前多得多的可信的选择。只要确保专注于正确的事情。

(Thomas Kejser的职业生涯开始于一个十几岁的编码员,但转入数据管理领域后就再也没有回头的数据库老司机。他拥有丹麦DAIMI的计算机科学硕士学位,并在不同的领域拥有行业经验,包括电信、医疗、制造、零售和金融服务。托马斯住在伦敦,业余时间和朋友们一起喝着上好的威士忌讨论哲学。)

性价比一直是数据仓库中唯一重要的东西相关推荐

  1. 深入浅出数据仓库中SQL性能优化之Hive篇

    摘要:Hive查询生成多个map reduce job,一个map reduce job又有map,reduce,spill,shuffle,sort等多个阶段,所以针对hive查询的优化可以大致分为 ...

  2. 数据仓库中的SQL性能优化 - Hive篇

    一个Hive查询生成多个map reduce job,一个map reduce job又有map,reduce,spill,shuffle,sort等多个阶段,所以针对hive查询的优化可以大致分为针 ...

  3. 用SQL Server 2017图形数据库替换数据仓库中的桥表

    Just like in Santa's Bag of Goodies, every release of SQL Server often has something for everyone – ...

  4. 数据仓库中的数据粒度

    转自:http://articles.e-works.net.cn/BI/Article61872.htm 数据分析在决策支持及趋势分析中发挥着重要的作用.通常数据仓库中包含大量数据表,如何在软硬件资 ...

  5. 聊聊数据仓库中维度表设计的二三事

    前言 大家好,我是云祁!今天和大家聊聊数据仓库中维度表设计的那些事. 维度表是维度建模的灵魂所在,在维度表设计中碰到的问题(比如维度变化.维度层次.维度一致性.维度整合和拆分等)都会直接关系到维度建模 ...

  6. python映射类型有哪些_什么是python中唯一的映射类型

    字典是python中唯一的映射类型,采用键值对(key-value)的形式存储数据.python对key进行哈希函数运算,根据计算的结果决定value的存储地址,所以字典是无序存储的,且key必须是可 ...

  7. 三菱触摸屏usb驱动安装_2020年三菱EXPRESS SWB和LWB:竟然是日系中唯一没有屏幕的面包车...

    我们听到三菱的Express van铭牌在中断七年后重新进入市场的消息而感到兴奋.但这并不是我们所设想的日式负载搬运器.相反,它完全基于日产-雷诺-三菱联盟的雷诺交通及其带来的协同效应.实际上,尽管每 ...

  8. python中最常用的映射类型_什么是python中唯一的映射类型

    字典是python中唯一的映射类型,采用键值对(key-value)的形式存储数据.python对key进行哈希函数运算,根据计算的结果决定value的存储地址,所以字典是无序存储的,且key必须是可 ...

  9. 为什么说,我们可能是宇宙中唯一的智慧生命?

    来源:原理 我们在宇宙中是孤独的吗?这个问题可归结为:智慧究竟是自然选择的一种可能结果,还是一种不太可能的侥幸? 显而易见的是,可能的事件可以经常发生:不太可能的事件很少发生,或者只能发生一次.生命的 ...

最新文章

  1. adv147(蓝桥杯) 学霸的迷宫 bfs
  2. android6.0源码分析之Camera API2.0下的Preview(预览)流程分析
  3. 游戏型计算机的配置表,爽玩游戏型详细配置列表及推荐理由
  4. java的throw_浅谈Java的throw与throws
  5. 统计概率分布_概率统计中的重要分布
  6. Quartz.NET 架构与源代码分析系列 part 1 :Quartz.NET 入门
  7. macOS下Apache+nginx+mysql+php多版本切换的配置
  8. 删除某个时间段之前的文件
  9. vs自带iis局域网调试
  10. php解析xml数据格式,PHP解析xml格式数据工具类实例分享
  11. CString,int,string,char*之间的转换(转)
  12. Windows7修改hosts提示:您没有权限在此位置中保存文件
  13. 【华为云技术分享】Scrum Master如何引导团队中的刺头
  14. 计算机科学与技术的班会,计算机科学与技术学院2014级信管三班班会
  15. 密码安全攻防技术精讲
  16. 免费开放的电子图书馆
  17. 网站机房:DDOS防火墙在企业机房中的应用介绍
  18. GOF23设计模式之建造者模式
  19. Babylonjs 官网demo预览图合集整理 带说明
  20. mysql比较两张表中两个字段值_如何通过SQL找出2个表里值不同的列的方法

热门文章

  1. ScalersTalk 机器学习小组第 21 周学习笔记(深度学习-10)
  2. 程序员接私活去哪儿?给大家推荐几个接私活平台
  3. 多门店共享无人自助洗车系统小程序开发
  4. PS 父图层与子图层
  5. 看了一半《牛奶可乐经济学》
  6. 文本溢出截断省略的方法
  7. 小扎、马斯克宣战ChatGPT!Meta和推特组建顶级AI团队,硅谷硝烟四起
  8. Joomla远程代码执行漏洞分析小白版(小宇特详解)
  9. [OpenCV实战]10 使用Hu矩进行形状匹配
  10. Neo4j入门-以Movies Project为例