Impala打开分布式技术的大门 天云数据Hubble赶超
在数据体量121亿条账户下进行资金查询测试,天云数据Hubble的性能是Impala的231%倍。
Impala,一种栖息在非洲南部的高角羚,行动敏捷奔跑迅速,以其优雅的姿势和杰出的跳跃能力而出名。受惊的时候可以跳起 3米高,9米远。
Cloudera研发这头高角羚(Impala)的初衷也很明了——提高Hive SQL查询的速度。就官方测试性能开看,Impala比Hive快10到100倍,其SQL查询比SparkSQL还要更加快速。Impala号称是当前大数据领域最快的查询SQL工具,也因其更快的速度被市场所熟知。其面对即席查询(Ad-Hoc Query)类请求的稳定性和速度在工业界得到过广泛的验证。
我们所熟知阿里巴巴、百度、google、facebook,包括新一代的分布式计算、容器化、机器学习人工智能等技术框架都在使用Impala。Impala突破了单机技术的限制,打开了分布式技术的大门,是技术架构革命性创新的引领者。
众所周知,传统技术机构主要依赖于-IOE( IBM的小型机、Oracle数据库、EMC存储设备),只能通过增加配置提升性能,系统无法横向水平扩展。分布式存储不仅解决了单机存储的性能瓶颈,还支撑海量数据在线实时并发服务应用。
传统技术好比轿车,能承载多少人是固定的,想多承载人只能换成客车;但分布式存储技术好比火车和高铁,按节承载,遇到春运可以增加车厢运输客流量。
国产数据库产品Hubble就是这高速列车,虽不是为速度而生,却在速度上赶超Impala。
在数据体量121亿条账户下进行资金查询测试, Hubble的性能是Impala的231%倍。
之所以做这个测试,源于某证券用户在使用Hubble进行数据查询后,感叹到:这也太快了,简直比Impala还快。
Hubble,人类天眼,位于地球的大气层之上的光学望远镜。从1990年到2015年4月,哈勃望远镜在地球轨道上运行了接近13万7千圈,累计54亿公里,执行了120多万次观测任务,观察了超过38,000个天体,增进了人类对宇宙的了解。“哈勃遗产场”是迄今最完整最全面的宇宙图谱。
天云数据研发Hubble的初衷也非常明了,融合传统数据库形成支持混合负载交易的数据联邦。在实际应用中,hubble完成了‘去IOE’中最困难的部分,在几家大型商业银行核心交易中成功替换Oracle,在银行的联机事务中解决A类核心系统减负问。一句话概述,Hubble让生态合作伙伴无缝切入大数据服务领域。
在分布式的新世界里,数据从‘生产产物’变成了‘生产者’,数据身份的转换对技术、人才的需求都发生了改变。很多企业想进入大数据服务领域,苦于人才难找、技术不行、项目周期太长、运维成本太高。这就好比一个人想写一本内容涵盖家庭装修、家庭布置、家庭关系处理的书,虽然都跟家庭有关,但具体内容却是术业有专攻,需要大量时间学习这三个方向的内容然后进行整合。但是在hubble的世界里只需调动这三个方向的专家,让他们各自撰写自己擅长的内容,然后整合到一起,专业度更有保障,出书所需时间更短。
为什么Hubble会在速度上如此有优势?
从 SQL 解析层上,Hubble 采用基于 AI 评估函数创建模型,在需要的时候直接调用完成目 标的预测并估算每组执行计划的代价。简单来说,就是用经验使用数据,用数据更新经验, 双管齐下速度更优。
在数据存储层上,Hubble 采用基于切片的列式存储和 KV 存储的混合部署模式。大数据环境下的Hbase、HP Vertica、EMC Greenplum 等分布式数据库采用的列式存储。常规行式存储下一张表的数据都是放在一起的,查询时所有数据都要被读取。但列式存储下数据被分开保存了,查询时只有涉及到的列会被读取,从而对于大表数据效率更高。KV 存储把不常变动的一些数据存储在kvstore中,需要的时候直接凭借key拿出value 就好,方便快捷就是它应对随机IO访问的优势。在大规模数据同时支持密集AP计算和TP并发场景下,基于数据切片的混布存储策略可以弹性适应IO特性,需要进一步优化时也可以快速做库内转换,避免数据复制和冗余。
在数据计算上,hubble是基于内存的计算框架,输出结果可以保存在内存中,减少数据的落地,后续的执行结果有依赖前面结果的可以直接从内存中获取得到,避免了磁盘的io操作,性能更高速度更快。
据IDC预测,2017-2022年,全球软分布式存储市场规模的平均增速为14.7%,而中国分布式存储市场的平均增速为32.5%。有分析师乐观地预测,未来3年,在中国市场上,分布式存储或将占据整个存储市场的半壁江山。
未来学家阿尔文·托夫勒说:“如今所有的国家都面对一个逃不了的规律—最快者生存。“
Impala打开分布式技术的大门 天云数据Hubble赶超相关推荐
- 赛迪顾问《中国云计算市场研究年度报告》发布:“技术+服务”两手抓 华云数据成为云计算领域的重要核心厂商
日前,国内权威咨询机构赛迪顾问对外正式发布2021年<中国云计算市场研究年度报告>(以下简称<报告>).<报告>从全球云算市场市场入手,介绍了中国市场规模和结构,分 ...
- MACOM面向CWDM4推出L-PIC™技术方案,助力云数据中心和5G光学连接发展
MACOM近期宣布推出 MAOT-025402 CWDM4发射器光学组件,这款组件是MACOM面向100Gbps CWDM4的L-PIC™(集成有激光器的硅光子集成电路)解决方案的一部分,凭借获得专利 ...
- SDN与NFV技术在云数据中心的规模应用
以云数据中心为切入点,首先对SDN领域中的叠加网络.SDN控制器.VxLAN三种重要技术特点进行了研究,接下来对NFV领域中的通用服务器性能.服务链两类关键问题展开具体分析.最后,阐述了前期开展的SD ...
- 「分布式技术专题」基于Gossip协议的去中心服务
概述 Gossip 协议可以翻译为流言协议.它是在 1987 年发表在 ACM 上的论文 <Epidemic Algorithms for Replicated Database Mainten ...
- 天云数据:去伪求真 国产数据库必须摒弃拿来主义
2020年是"不平凡"的一年,更是值得深思的一年.疫情之上还有波云诡谲的国际政局让人对这个充满着不确定性的世界忧心忡忡. 在这样一个不确定的时代,唯有强大自己才是心之所安的源泉.于 ...
- 天云数据入选中国信通院《全球数据库产业图谱(2022)》
6月28日,由中国信息通信研究院(以下简称"中国信通院").中国通信标准化协会指导,中国通信标准化协会大数据技术标准推进委员会(CCSA TC601)主办的2022大数据产业峰会在 ...
- 乐视体感astra pro深度摄像头在ros系统获取 深度图像 彩色图像 无色彩点云数据 彩色点云数据
1.astra pro深度摄像头介绍 2.astra pro驱动安装 3.astra pro获取深度图像 无色彩pointCloud2 4.astra pro获取彩色图像 带彩色的pointCl ...
- 华云 服务器_华云数据携手金蝶天燕完成产品兼容互认证 提供更加安全可靠的基础服务支撑...
日前,华云数据推出的国产通用型云操作系统安超OS 2020与金蝶Apusic应用服务器软件V9.0完成兼容性互认证明.此次互认证,可谓是一次中国云的最佳实践,也是自主创新的应用典范,为国内电子政务.电 ...
- 信创,“行业or事业”,华云数据已经做出了选择
关注我们牛年牛气冲天 "做生意"还是"做事业",因为两者的对象不同.目标不同.评价标准不同,所以其主体在策略制定.业务执行以及长远规划等方面也会有较大差异.都说 ...
最新文章
- IOS属性类型的讲解
- PHP多种序列化/反序列化的方法(serialize和unserialize函数)
- controller requestparam不传参数空指针异常_看完这篇文章,让你轻松学会Java异常处理...
- vsphere linux硬盘热添加
- java轴_JAVA2D:翻译轴
- Liverpool一日游
- 使用 Tye 辅助开发 k8s 应用竟如此简单(二)
- Spring MVC源码——Root WebApplicationContext
- Django之Ajax刷新记住用户名
- Linux安全 chage sudo授权 selinux安全上下文 gpg加密 aide入侵检测系统 audit 审计
- DOM之事件高级(附实例、图解)
- delphi官方iso下载地址
- jquery.countdown.js 使用教程_2020年建筑教程资源近2000G免费建筑教程,分享给有需要的建筑同行...
- 肠道健康如何影响疾病
- 【R语言】ggplot2:初次见面,请多多关照!
- 【经验总结】小白挖洞十天经验分享
- 视频超分修复,让重温经典影片有了新的可能
- java结束程序是什么语句,在Java程序中,每条功能执行语句的最后都必须用结束。...
- linux 下 调笔记本亮度,Linux下如何保存笔记本屏幕亮度设置(背光亮度)
- 图的概念与主要类型、图模型的应用场景