MySQL 作为全球最欢迎的数据库,已在交易场景叱咤风云多年。在 2020 年底,OCI(Oracle Cloud Infrastructure)推出了一个黑科技插件,它弥补了 MySQL 在分析场景的短板,Oracle 官方称它比 Aurora 快 1400 倍,比 Redshift 快 6.5 倍,而且还能以二分之一的成本完成这些工作,它就是 MySQL HeatWave。

目前网络上关于 MySQL HeatWave 的资料相对较少,我通过已有的资料和 B 站公开课视频初探 MySQL HeatWave,梳理出本篇笔记。

本文发布时间为 2022 年 11 月,由于产品更新的客观情况,本文部分信息会存在实效性,请以官方文档为准。(MySQL :: MySQL HeatWave User Guide :: 1 Overview)

MySQL HeatWave 简介

MySQL HeatWave 是一个内置高性能内存查询加速器的 MySQL 云服务。借助该服务,我们无需对当前应用进行任何更改,即可将混合工作负载的 MySQL 性能提高数个量级。

相比传统的分析场景,MySQL HeatWave 可以让用户无需再使用单独的分析数据库、单独的机器学习 (ML) 工具以及提取、转换和加载(ETL)复制。同时,借助 MySQL HeatWave 机器学习,开发人员和数据分析师可以在 MySQL HeatWave 中构建、训练、部署和解释机器学习模型,无需将数据迁移到单独的机器学习服务中。

目前 MySQL HeatWave 可在 OCI(Oracle Cloud Infrastructure)、AWS(Amazon Web Services)和 Microsoft Azure 上使用。

MySQL HeatWave 可以附加到 MDS(MySQL Database Service)来支持分析类查询,它不会暴露给应用程序。MySQL HeatWave 的数据库是以列存形式存储在内存当中。

简单了解 MySQL HeatWave,首先了解如下三条内容即可:

  1. 使用同一个 MySQL 数据库来支持 OLTP 和 OLAP;
  2. 数据以分区的方式存储在内存中;
  3. 应用程序无需做任何更改

MySQL HeatWave 技术架构

整体架构

MySQL HeatWave 的架构如下图所示,它以一个插件的形式存在于整个 MySQL 数据库系统当中,它不会直接面对应用程序,可以理解为 MySQL HeatWave 挂在了 MDS 之下,用户无需修改原有的数据访问方式。

MySQL HeatWave 插件对应着若干个 MySQL HeatWave Node。MySQL HeatWave 的数据在内存中以列存的方式存储,其持久化的数据是存放在对象存储中,可在 Node 失效后快速完成恢复。

列存

HeatWave 的数据以列存方式存储在内存中,便于向量化处理,同时数据在加载到内存前会进行编码和压缩,可提高性能和减少内存占用,从而降低客户的成本。

  1. 基于行存数据做水平分区,基于水平分区,可以将查询在节点级并行执行来加速 scan、join、group-by、aggr 和 top-k 等算子,同时分区规划是与底层 RAPID 定制化硬件适配的。
  2. 分区内部将数据按照schema定义组织成列式存储,以引入向量化执行,每个向量化计算的单位是16KiB 的 vector,各列对应行的vector组合在一起成为 chunk,每个 partition 会有多个 chunks。
  3. 为了适配 DMS,vector 又划分为多个 tile,每 64 行组成一个tile作为数据传输的最小单元。
  4. 为了减少内存的使用,所有存储的数据都会做编码或压缩。

MySQL HeatWave 功能

以下内容摘自 Oracle 官网,地址为 https://www.oracle.com/mysql/#rc30p6

  • 一个 MySQL 数据库满足 OLTP 和 OLAP 两种需求

    • 对 ETL 无依赖
    • 提供实时分析
    • 增强安全性
    • 无需修改应用程序
    • 支持 MySQL 数据库所支持的 BI 和数据可视化工具
    • 可在公有云和用户的数据中心使用
  • 高性能内存查询加速器

    • 采用大规模扩展和高性能架构设计
    • 针对云进行了优化
    • 针对高事务处理量和连接进行了优化
  • In-database 机器学习

    • 无需额外的机器学习服务
    • 利用机器学习生命周期自动化,节省时间并减轻工作量
    • 可解释的机器学习模型
  • MySQL 自动驾驶

    • 自动配置
    • 自动线程池
    • 自动分片预测
    • 自动编码
    • 自动查询计划优化
    • 自动数据安置
  • MySQL 湖仓一体(beta)

    • TPC-H 性能优于同类产品
    • 快速分析所有数据
    • 可扩展的管理、处理数据架构
    • 机器学习驱动自动优化,提升性能并节省时间
  • 实时弹性

    • 在高峰时间始终保持稳定的高性能,成本更低且无停机时间
    • 避免过度预配实例
  • 全托管数据库服务

    • 由 MySQL 工程团队开发、管理和提供支持
    • MySQL HeatWave 交互式控制台:管理资源、运行查询和监视性能
  • 高级安全性

    • 通过密钥生成和数字签名进行非对称加密
    • 数据脱敏
    • SQL 白名单

MySQL HeatWave 工作原理

  1. RAPID 引擎支持语句中相关函数;
  2. RAPID 引擎执行时间评估少于 InnoDB 的执行时间。

当同时满足以上两个条件时,将由 RAPID 引擎,也就是 MySQL HeatWave 来处理相关业务请求。

在启用 MySQL HeatWave 插件后,对于接收到的请求,MDS 会通过两个条件来判断该请求是否走 RAPID 引擎,MySQL HeatWave 所使用的引擎是 RAPID,在研发阶段 MySQL HeatWave 的名字就是“RAPID”。

MySQL HeatWave 数据加载

加载方式

对于 MySQL HeatWave 的数据,可通过如下三种方式进行加载:

  1. 手动加载数据,每次加载一张表;
  2. 通过自动并行方式加载数据,通过 Autopilot 的方式可并行执行,效率较高;
  3. 通过 MySQL HeatWave 的控制台,以可视化的操作来完成数据加载,这种方式目前仅限在 AWS 上进行操作。没错,这里确实是只有 AWS 支持 MySQL HeatWave 控制台,AWS 快了 OCI 一步。

在初次数据加载时可能会耗时久一些,在完成数据加载后,MySQL HeatWave 会自动地保持与 InnoDB 数据一致,这里值得关注的是,自动同步变更数据的模式是异步的,最多可能要用户接受 200ms 的数据延迟,也就是说 MDS 上的数据变更不会等待 MySQL HeatWave 的反馈

同步方式

MDS 会根据如下策略对数据进行同步:

  1. 每 200 ms;
  2. 当变更传输缓冲区达到 64MB 时;
  3. 在 MDS 中,经过 DML 变更的数据被后续的 HeatWave 查询需要读取时。

MySQL HeatWave 部署方式

公有云

MySQL HeatWave 可支持在 OCI(Oracle Cloud Infrastructure)、AWS(Amazon Web Services)和 Microsoft Azure 上使用。

所需的 HeatWave 节点数取决于数据大小,OCI 和 Azure 最多支持 64 个节点。在亚马逊网络服务(AWS)上,一个HeatWave集群最多支持128个 节点。

混合部署

混合部署是指本地部署 OLTP + 云端部署 OLAP 的方式,在这种混合部署中,客户可以使用 MySQL 复制将本地 MySQL 数据复制到 OCI 或 AWS 的 MySQL HeatWave,而无需通过 ETL 来满足分析业务需求。

这种混合部署方式需要考虑数据延迟情况,在“数据加载”中已介绍,InnoDB 和 HeatWave 间数据是异步进行传输的,加上网络的延迟,需要考虑数据的实时性问题。据了解目前中国区没有 MySQL HeatWave。

本地部署

OCI 支持部署在用户的数据中心,可满足合规要求,让数据驻留在用户的数据中心。这样的部署方式具备以下特点:

  1. 具有独立的 OCI 云区域,由 Oracle 托管;
  2. 满足数据驻留在用户数据中心的需求;
  3. 满足低延迟的需求。

MySQL HeatWave 性价比

MySQL HeatWave 和 Amazon Redshift 「最快的实例」进行性能对比,对 19 次 TPC-H 测试结果进行几何平均计算后,MySQL HeatWave 比 Amazon Redshift 速度快 2.7 倍,成本仅为 Amazon Redshift 的三分之一。

MySQL HeatWave 和 Amazon Redshift 「低成本实例」进行性能对比,MySQL HeatWave 性能上要领先 Amazon Redshift 17 倍以上,投入成本持平。

从官方公布的性价比数据看,相比图上其他几款产品,MySQL HeatWave 性价比最高。

MySQL HeatWave 费用

在 Oracle 公益课堂中,我们可以了解到 MySQL HeatWave 的大概使用成本,对于这张图我们只需要关注下半部分,对于 2T 数据量的环境,每月的成本约为 1260 美元

其中包括了 MDS 费用、MDS 存储的费用和 HeatWave 的费用。

MySQL HeatWave 多云差异

OCI 和 AWS

HeatWave 在 OCI 和 AWS 两朵云的 Roadmap 上的差异是比较有趣的,前面已提到可视化的数据加载只能通过 AWS 来完成,不只是这项能力,通过下图来看,AWS 在用户体验上要优于 OCI。

(https://www.oracle.com/mysql/#roadmap)

在 OCI 中需要使用控制台时,将会跳转到 AWS。

Azure

对于 Azure 用户,仍然可以使用 MySQL HeatWave 服务,它是通过 Azure VNET 连接 OCI 的 MySQL HeatWave,也就是说,实际上使用的还是 OCI 的环境。

目的是为 Azure 用户提供原生用户体验,私有互联的方式将网络延迟控制在 2ms 内。

(https://www.oracle.com/cloud/azure/oracle-database-for-azure/)

总结

MySQL HeatWave 可支持在 OCI(Oracle Cloud Infrastructure)、AWS(Amazon Web Services)和 Microsoft Azure 上使用,也支持将 OCI 部署到用户数据中心。

启用 MySQL HeatWave 插件后,用户可以通过一个 MySQL 服务来满足业务在 TP 和 AP 的需求,而无需修改业务。通过内部流程自动地完成数据同步,不需要单独维护 ETL,可保持架构简洁。自动驾驶(AI)和湖仓一体的能力给用户更多期待。

MySQL HeatWave 弥补了 MySQL 在分析场景的能力,对于中小型企业有非常大的意义。

其中有两方面不足之处,值得用户关注:InnoDB 的存储(扩展限制)及数据一致性问题。

扩展限制:MySQL HeatWave 可以提供扩展能力,但 MySQL InnoDB 存储问题没有在本质上被解决掉,InnoDB 面对海量数据的情况,仍存在较大挑战。

数据一致性:对于数据一致性要求较高的场景,需要考虑 InnoDB 到 HeatWave 的延迟问题(异步传输)。

参考

[1] MySQL :: MySQL HeatWave User Guide :: 1 Overview

[2] Pushing Cloud MySQL Performance The Oracle Way (nextplatform.com)

[3] MySQL · HTAP · 分析型执行引擎 (taobao.org)

[4] Oracle 公益课堂:MDS & Heatwave

[5] HeatWave | Oracle 中国

[6] MySQL HeatWave Database Service | Oracle

初识 MySQL HeatWave相关推荐

  1. 初识mysql学习笔记

    使用VMVirtualBox导入Ubuntu后,可以通过sudo apt-get install mysql-server命令下载mysql. 在学习过程中,我遇到了连接不上Xshell的问题.最终在 ...

  2. navicat mysql两张表建立联系_初识MySQL

    初识MySQL 为什么学习数据库 1.岗位技能需求 2.现在的世界,得数据者得天下 3.存储数据的方法 4.程序,网站中,大量数据如何长久保存? 5.数据库是几乎软件体系中最核心的一个存在. 什么是数 ...

  3. MySQL学习(一)—初识MySQL

    MySQL学习(一)-初识MySQL 害,不知不觉一个半月过去了,时间过得太快了,学校的MySQL已经上到第七周的课程来了,我才想起来要写总结,新学的知识三天不看就忘得差不多了,果然还是要多复习啊,加 ...

  4. MySQL数据库之——初识MySQL

    1,初识MySQL javaEE: 企业级Java开发 Web 前端(页面:展示,数据!) 后台(连接点:连接数据库jdbc,连接前端(控制,控制视图跳转,和给前端传递数据)) 数据库(存数据,txt ...

  5. 初识MySQL数据库(MySQL数据库的基础操作)

    初识MySQL数据库 前言 1.查询所有数据库 2.创建数据库 2.1指令1: 2.2指令2: 3.3指令3: 3.删除数据库 3.1指令1: 3.2指令2: 在这里插入图片描述 4.切换数据库 总结 ...

  6. MySQL之初识MySQL

    一.初识MySQL javaEE:企业级java开发,主要是做Web. Web分为前端(页面:展示数据库数据).后台(连接点:连接数据库JDBC,连接前端(控制视图跳转.给前端传递数据)).数据库(存 ...

  7. 初识mysql实验小结_初识mysql学习笔记

    使用VMVirtualBox导入Ubuntu后,可以通过sudo apt-get install mysql-server命令下载mysql. 在学习过程中,我遇到了连接不上Xshell的问题.最终在 ...

  8. MySQL HeatWave Quickstart AutoPilot简介

    本文是MySQL HeatWave Quickstart (快速入门)的续篇. 今天看了下MySQL HeatWave用户手册,已由60多页变为96页,增加了Autopilot,对象存储持久化层等内容 ...

  9. 重磅新品 MySQL HeatWave 机器学习(ML)

    Oracle于2022年3月29日,在Oracle的云上发布了MySQL HeatWave 机器学习(ML).Oracle MySQL HeatWave除了用于事务处理和分析之外,现在还支持数据库内机 ...

最新文章

  1. 免费直播:1小时带你体验Python车牌识别实战
  2. R语言修改dataframe的列名(column name)实战
  3. WebX Qamp;A
  4. 亚马逊是如何进行软件开发的
  5. 进行xlsx 复制一行_利用Phyton对Excel数据进行查错
  6. Fuzzy c-means (FCM)聚类算法
  7. 带left join 的sql的执行顺序
  8. C#中A a=new B()的意义
  9. 在中国程序员能不能干一辈子?水平差距再大也逃不掉这个噩梦吗?
  10. TCP为什么避免测量重传报文段SampleRTT;TCP为什么等到三个重复的ack后才快速重传
  11. 三年磨一剑!CEL再度推出专业级FDM 3D打印机
  12. Eclipse_设置JSP模板
  13. 本源量子计算机云平台,本源量子计算云平台
  14. Flash 芯片类型介绍
  15. debug断点调试进不去
  16. java 参数不知道类型_java – 类型参数不在其范围内
  17. 斯托曼与林纳斯的恩怨纠葛,天才往往都很固执
  18. android x86 v2ex,v2ex签到脚本改进 - 就爱阅读网
  19. aris终端桌面_「最美应用」 Aris :这款神奇的桌面,助你化身神盾局特工
  20. SOA为什么不“香”了?| 建设数据中台系列(三)

热门文章

  1. 性能优化:swift三方库Kingfisher图片加载库属性maxMemoryCost失效原因分析
  2. Lodop打印控件使用
  3. sleep()和wait()方法有什么区别
  4. scratch3.0 躲子弹游戏——克隆练习
  5. JAVA动态增加枚举项
  6. redis缓存击穿测试
  7. 磁盘分区之MBR分区方式
  8. 蔡高厅高等数学22-导数的概念、两种表现形式
  9. 美业SaaS的创业分享之[产品]:产品成功的关键还是面向B端的产品经理
  10. 【tableau】动态图表和动态排名以及仪表盘