数据库发展的这50多年以来,联机事务处理OLTP和联机分析处理OLAP两条道路上的风风雨雨,源自用户需求的驱动,也经历了漫长的“融合-分离-再融合”的演进过程。

但是,在没有出现新一代HTAP数据库前,想要实现数据敏捷却很困难。为什么?

▼▼▼

实际上,在同时支持OLTP和OLAP场景的HTAP数据库技术迭代之路上,一直存在着“改革派”与“改良派”两大阵营,他们从两条路径上探索着“数据敏捷”。

“改良派”基于结合中间件的模式来实现“OLTP+OLAP”的HTAP,在规模扩展与性能提升两个重要方面都受限。一方面,基于中间件实现的HTAP,其数据必须汇聚到中间件节点,然后再执行,速度必然就上不来,难以实现高性能;另一方面,数据节点之间靠中间件来汇聚实现交互,数据节点也就成了孤岛,规模化扩展受限不说,分布式事务也难以支持。

作为HTAP数据库最早的改革派代表之一,SAP HANA 通过内存数据库实现了强大的混合负载能力,实现了很高的性能,快是快,但数据量有限,毕竟基于单一存储架构,在规模化扩展上容易受限。更令众多用户望而却步的是HANA“贵且专有”,仅在使用SAP的大企业有少量用户。因而,这一代HTAP并没有真正扩展起来,也并没有流行成为数据库行业大趋势。

因为这些不足,所以这类数据库厂商也很难构建出数据敏捷(Data Agility)的能力。

近年来,随着互联网的发展,数据爆炸式的狂增,海量、实时、在线的需求越来越广泛,大量采用MySQL和PostgreSQL(PG)开源数据库的新一代企业,在针对提升热数据的实时在线分析能力上有着强烈的需求,特别是从事线上业务的数字化转型企业,这类需求尤为强烈。比如电商、游戏、数字媒体、金融科技、网络安全等互联网和数字化业务,其新鲜数据的实时分析能力,强化了数据敏捷,在很大程度上直接决定了企业未来发展的兴衰存亡。因为只有构建了数据敏捷,才能实现业务敏捷。

当新一代HTAP的发展成为全球数据库行业中的大趋势之时,以Google Cloud谷歌云的AlloyDB、Snowflake的Unistore、PingCAP的TiDB等为代表的新一代“改革派”,不仅打破了过去OLTP和OLAP两大典型应用场景的传统定位,获得了强大的数据实时处理和分析计算能力,而且基于分布式架构,实现了传统数据库、数据仓库难以实现的高性能、高扩展与实时处理能力。与此同时,“改革派”让数据敏捷(Data Agility)成为了HTAP数据库发展的关键词。

目前,有两大重要原因正在改变着新一代HTAP的市场需求和技术环境。一是来自用户实际的实时分析需求在攀升,特别是MySQL和PG开源数据库用户对于实时分析的需求在激增,迫切需要拥有HTAP的能力。二是,近些年来随着公有云的快速迭代发展,企业上云从刚需再到全面加速应用落地,分布式与云原生的叠加效应,也正在加速重构企业数据架构,并进一步影响着HTAP数据库的发展。

应尽其用,充分展现数据敏捷的行业价值

正如PingCAP CEO刘奇之前所言,一个好的数据库不是写出来的,而是靠用出来的。在HTAP赛道上,国内外的选手也越来越多,数据库行业“HTAP化”趋势日益明显,那么新一代HTAP数据库究竟适合哪些用户呢?

在早期还没有诞生新一代HTAP数据库之时,MySQL和PostgreSQL可以满足用户的基本需求,在较小规模数据量情况下MySQL 数据库可以应对OLTP实时业务的挑战。

后来数据仓库兴起,诸如数据仓库(Data Warehouse)、数据湖(Data Lake)、湖仓一体(Data Lakehouse)等大数据技术可以处理大规模的数据量,但无法实现在线服务,可以想象一下,要将Hadoop直接当做一个OLTP数据库平台去用,将是多么尴尬的事情。再者,大数据栈要为用户提供毫秒级别的响应,也是挑战不小。

但是,新一代HTAP数据库诞生后,在扩展性、TP与AP融合的HTAP两个方面得到充分发挥,成功开辟并构建了一个数据敏捷(Data Agility)的数据库发展区域。以此定位,将为用户提供更简单、更易用的新一代HTAP数据库,这也成为了TiDB的定位。

事实上,全球已有众多MySQL应用开发者,他们都需要更具备数据敏捷(Data Agility)的数据库来承载。因此,新一代HTAP数据库与传统数据库对比有错明确的错位。包括Databricks、MongoDB、Confluent、Snowflake、PingCAP等厂商,都基于云生态而发展,而得以彰显其价值。TiDB也成为了云生态的受益者,发布了全托管的数据库即服务(DBaaS)产品TiDB Cloud,为企业用户提供开箱即用的TiDB服务。同时TiDB还陆续上线了亚马逊云科技与谷歌云的Marketplace,以及阿里云云市场。

在更完整的生态对接方面,数据库从来都不是单独被使用的,而TiDB也在持续改进和生态环境的对接。在新版本中,TiDB引入了用户级别锁和TiCDC下的Avro格式向Kafka同步数据的支持。TiDB从6.1版本开始支持兼容MySQL的用户级别锁管理,支持GET_LOCK、RELEASE_LOCK、RELEASE_ALL_LOCKS 等锁管理函数,这使得TiDB得以更好支持现有 ORM框架的生态。尤其在数据敏捷(Data Agility)方面,TiCDC工具表现出色,支持将TiDB数据库的增量数据转换为Avro格式,并发送到Kafka的方式,这将使得TiDB数据库与Kafka、Snowflake、SQL Server等众多生态系统都连接起来。从而实现对常用的数据格式的支持,降低开发复杂度。

全球云观察分析指出,近年来,TiDB快速发展并获得先发优势的秘籍,必然就在于将“数据规模高扩展性与数据处理实时性”得以有机结合,未来也将充分展现出数据敏捷(Data Agility)定位的行业应用价值。

Scalability x HTAP虽好,也需要两大生态的助攻

然而,Scalability x HTAP虽好,也需要开源和云两大生态助攻。

开源优势在于拥有开放生态,敏捷创新与更快迭代速度。不过,在PingCAP联合创始人兼CTO黄东旭看来,真正的迭代速度或者说更有价值、更有意义的迭代速度在于开源软件如何帮助应用开发者更快地开发出新应用。

在这之前,PingCAP推出一个OSS Insight.io的开源项目,采用了46亿个GitHub事件数据来构建,开源社区开发者可以凭借这个OSS Insight开源项目分析工具,多维度深入洞察开源项目的健康状况,从而获得有用的价值分析。值得关注的是,PingCAP只用了两个人一周时间,就成功构建了整个OSS insight网站,其背后却只有一个 TiDB Cloud 支撑其在线数据、所有数据的分析以及图表等应用。

可见,通过开源数据库与云服务融合发展,新一代HTAP数据库能够极大降低应用开发的复杂性,加速开发进程,为应用和业务赢得更多的时间,从而助力数字化企业赶超行业对手,占得市场先机。

在过去几年中,开源与多云的融合发展,已经凸显出来了三个关键技术赛道,包括云原生、数据技术和人工智能,新一代HTAP数据库已经融合了这三大关键技术,并以云服务方式对外发展。

基于开源的开放性,通过云原生的灵活性,发挥公有云带来的低门槛、更快速、更有业务友好性,通过与公有云合作,新一代HTAP数据库在第三方云平台的公有云上部署,可以应对当前企业出海,走向全球化发展面临的数据挑战。

然而,并非所有的企业都会将自己的应用全部上公有云。在发展to B业务过程中,大家也清醒地认识到一个事实,在国内的中大型用户,基本上都采用的是1+N的部署模式,既采用自己数据中心的私有部署模式,同时又在公有云上部署,面向全球发展出海业务。为此,一种经典的SQL体验,多种部署形态的新一代HTAP数据库将更利于企业用户业务发展需要,并助力加速企业数字化创新。这也是TiDB发版策略变化的原因所在。

不同于之前DMR开发里程碑版,PingCAP最新推出了LTS长期支持版TiDB 6.1,采取长期支持版+开发里程碑版的发版方式,对外提供服务。TiDB可以最大限度兼顾用户的快速迭代和稳定投产两大需求。在没有特定需求开发的情况下,用户可以选择最新的LTS版本投产;如果需求某个DMR发布的新功能,则可以选择该版本进行 PoC以及试运行,待到对应的LTS版本发布后升级TiDB到稳定生产状态。

全球云观察分析认为,部署在多云架构上,还保持着开源快速迭代的数据库服务,可以同时满足多种企业级部署模式,提供灵活更多元的开源数据库应用选择,来满足企业数字化转型进程的需要。在很大程度上,这更利于实现数据敏捷的行业价值,体现出了一个开源数据库厂商重塑行业格局的决心与信心。从社区走向商业化,从互联网行业走向企业级to B、to G,TiDB也迈向了企业级发展的新阶段。

此外,在坚持开源开放生态与云生态融合制胜的同时,TiDB也不断在降低应用门槛。一是,成为MySQL生态圈更好的邻居。二是,基于开源与云的融合发展趋势,持续兼容更多的生态组件和生态产品。未来,TiDB将与整个MySQL生态和云生态协同协作,助力企业构建创新业务构架和实现创新的技术目标。

源于开源带来的开放性,通过开源数据库天然和大数据生态集成,TiDB在增强跨云能力的同时,也对上游向上结合人工智能算法技术生态,进一步强化“AI For DB”的能力,向下与云原生的生态融合,面向应用开发生态,强化数据敏捷的综合能力。

全球云观察分析指出,融合开源和云两个生态的价值,TiDB从第三方云平台的公有云部署,到纯托管的TiDB Cloud部署,再到LTS企业稳定版私有部署,提供了一致的SQL经典体验,聚焦了用户价值的每一个环节,满足数字原生企业和数字转型企业的广泛需求。V6版的发布,对重塑行业格局带来了积极的意义,使能行业数据价值释放,新一代HTAP数据库令业界刮目相看。因此,在开源和云两大生态助攻下,基于Scalability x HTAP的数据敏捷发展区间的创新构建,HTAP数据库“改革派”必将迎来新数据时代发展的春天。

小结:不容小觑,依然面临四大挑战

当前,HTAP概念虽然很火,新一代HTAP数据库也开辟了数据敏捷的发展新区域,但是我们如果理性地看,不难发现HTAP一直还没有成为主流应用,原因是什么?全球云观察总结指出主要有四大挑战,不容小觑。

其一,应用场景仍在探索。众多用户不知道什么场景下什么时候用HTAP,虽然互联网企业有实时数据分析的明确需求,但是尚有很多传统企业还不知道如何利用实时数据来提升业务价值。

其二,应用门槛高。在公有云领域应用最广泛的还是RDS,即Relational Database Service在线关系型数据库服务,而HTAP较少。目前大多数HTAP数据库是商业数据库和开源数据库,以私有部署为主,需要用户采购服务器,既要懂得HTAP数据库应用部署,又要懂得基础设施架构,有一定的应用门槛。不过,在HTAP与云原生结合之后,多云化带来部署门槛降低,公有云优势与HTAP数据库优势都将双双凸显。

其三,架构人员亟待调整。以前在用户实际应用中,大数据技术栈使用比较多,DBA运维部门与大数据部门,即TP和AP的组织架构独立,长期以来是两个部门在维护不同的技术栈,现在HTAP正在改变用户的技术架构和组织架构,一栈式模式带来了架构人员统一的解决之道。

其四,新一代HTAP数据库厂商风起云涌。如谷歌云、Snowflake、亚马逊云科技、PingCAP等都在发力新一代HTAP数据库,聚焦数据敏捷的发展新格局,大家都想去推动行业洗牌,重塑行业格局。

(by Aming)

- END-

欢迎文末评论补充!

【全球云观察 | 科技明说】专注科技公司分析,用数据说话,带你看懂科技。本文和作者回复仅代表个人观点,不构成任何投资建议。

数据敏捷,HTAP数据库既决效率又决生死相关推荐

  1. NFTScan x TiDB丨一栈式 HTAP 数据库为 Web3 数据服务提供毫秒级多维查询

    导读 NFTScan 是一家多链 NFT 数据基础设施服务商,为 Web3 用户提供高效简洁的 NFT 资产搜索查询服务,为 Web3 开发者和新一代金融科技公司提供专业的 NFT API 数据服务. ...

  2. 【金猿技术展】一种分布式 HTAP 数据库上基于索引的数据任意分布方法——为 HTAP 数据库实现 Collocation 优化...

    ‍ PingCAP技术 本项目由PingCAP投递并参与"数据猿年度金猿策划活动--2022大数据产业创新技术突破榜单及奖项"评选. ‍数据智能产业创新服务媒体 --聚焦数智 · ...

  3. HTAP数据库:Hubble加倍实现数据湖价值

    98%的企业都面临数据孤岛问题,数据没标准.数据难统一.数据难打通.数据质量低.打通数据孤岛难度大周期长成本高,企业每年在糟糕的数据上多花费近25%的成本. 有痛点就有市场,数据湖应市而生. 为什么是 ...

  4. HTAP数据库:Hubble释放物联网数据潜能

    有一双未卜先知的眼睛,城市里错综复杂的十字路口和成千上万的路段里路况都在它的视野里,并且它能提前告诉你5分钟后.10分钟后,乃至1个小时后的路况信息: 有这样一个全能机器管家,它能很好的感知设备性能的 ...

  5. 读 TiDB 论文有感 | 数据强一致性且资源隔离的 HTAP 数据库

    作者介绍: 陈现麟,伴鱼技术中台负责人,从 0 到 1 搭建伴鱼技术中台,对分布式架构.服务治理.稳定性建设.高并发高 QPS 系统和中台化的组织架构搭建有一定的经验,崇尚简单优雅的设计,关注云原生和 ...

  6. 企业级分布式 HTAP 数据库管理系统,腾讯 TBase 正式开源 ​

    导读:腾讯云首席架构师李跃森先生,主要负责TBase数据的技术研发和架构设计,有超过10年的数据库内核开发设计经验,进行过多种数据的架构设计和开发.将在即将到来的2019数据技术嘉年华分享主题&quo ...

  7. 重读GPDB 和 TiDB 论文引发的 HTAP 数据库再思考

    为什么要再思考? 大家好,我是阿福,之前我在社区 Paper Reading 活动中分享了 Greenplum 团队在 2021年 SIGMOD 上发表的论文:<Greenplum: A Hyb ...

  8. 从曾经的一家独大到现在的群雄逐鹿,大数据时代的数据库圈为啥如此之乱?

    前言 最近家里事情比较多,逃了很久的更.终于找到了点时间继续写一写,好不容易坚持下来的写东西的习惯可不能半途而废了. 上一篇文章吐槽了下技术快速发展对技术人员带来的各种深远影响,但是主要是从总体上来说 ...

  9. 【合集】云栖大会珍贵技术资料:20+覆盖容器技术、智能工业、大数据、开源数据库等(下)...

    2019独角兽企业重金招聘Python工程师标准>>> 云栖社区从几百位讲师中精挑细选了若干精华,其中涵盖了智能物流.大数据.开源数据库.智能工业.容器技术以及智能应用实践等. 作为 ...

  10. 产品解读 | 敏捷版数据库场景 一站式快速构建企业全场景数据库管理平台

    简介:Gartner 的报告显示预计到2022年将有75%数据库将采用云数据库,与此同时,IDC预计到2024年传统部署数据库市场将达到13亿美元,企业数字化转型升级,积极拥抱开源.云原生数据库成为重 ...

最新文章

  1. web server大全之GoAhead移植(转载)
  2. Directx11教程(61) tessellation学习(3)
  3. Codeforces Beta Round #14 (Div. 2) B. Young Photographer 水题
  4. jQuery开发技巧
  5. boost::hana::make_optional用法的测试程序
  6. 零钱兑换—leetcode322
  7. ASP.NET Core MVC 过滤器介绍
  8. mysql内存机制_MySQL内存管理机制
  9. VS2013代码调试:[7]如何避免调试时加载符号
  10. php多线程扩展pthreads安装使用,swoole多进程,内置多进程
  11. html5点击刷新的效果,HTML5 手机屏幕下拉(下刷)动作的弹性刷新效果
  12. 【第2重磅】王者荣耀「绝悟」升级,全英雄池解禁
  13. Linux下简单的木马查杀
  14. 【读书笔记】目标是什么
  15. 【PAT乙级】PAT (Basic Level) Practice (中文)训练记录
  16. PCB设计中如何进行统一批量检测并生成错误报告
  17. 【实用的微缩版 初级开发面试题】
  18. html5游戏 做广告联盟怎么样,几个比较好的国外广告联盟推荐
  19. 数据结构——哈夫曼树
  20. ipad微信号无法连接服务器,ipad微信内置浏览器无法微信登录

热门文章

  1. mysql 获取天数_MySQl 计算本年的天数
  2. ( 方框打勾 java_Java 11手册:Java 11是否在所有正确的方框中打勾?
  3. 大型三维GIS图形工作站
  4. VEH Hook 及 检测
  5. Python基础:while循环 以及 练习题 :三位数的水仙花数 GDP 计算π 判断一个数是否是素数
  6. 互联网公益陷入信任危机,智慧公益能否力挽狂澜?
  7. 你学习了Python,再看此文,这是一篇可以给你带来外快的文章,不夸张
  8. APKTOOL打包方法
  9. 【二极管】稳压二极管全面分析
  10. rabbitmq 存入mysql_将RabbitMQ使用者数据保存到数据库中