原标题:基于开源应用快速构建HTAP系统

利用ProxySQL、MySQL、ClickHouse快速构建HTAP系统1. 关于ClickHouse

企业里随着数据量的增加,以及日趋复杂的分析性业务需求,主要适用于OLTP场景的MySQL压力越来越大。多年前还能免费试用的infobright社区版也早就销声匿迹,infinidb被MariaDB收入囊中之后改头换面变成ColumnStore,但最近几年发展的平平淡淡,都不是理想的OLAP方案。

战斗民族出品的ClickHouse这几年则是风头正劲,国内用户也越来越多,几大公有云上也提供相应的产品服务,是目前市面上最快的OLAP数据库,性能远超Vertica、Sybase IQ等。关于ClickHouse的性能也可以关注我以前的一份测试报告: ClickHouse性能测试 。

ClickHouse对MySQL的兼容性也很好,除了很多语法相同或接近外,甚至还可以利用MySQL客户端(协议)连接到ClickHouse。

ClickHouse 可以挂载为 MySQL 的一个从库 ,先全量再增量的实时同步 MySQL 数据,这个功能可以说是今年最亮眼、最刚需的功能,基于它我们可以轻松的打造一套企业级解决方案,让 OLTP 和 OLAP 的融合从此不再头疼。目前支持 MySQL 5.6/5.7/8.0 版本,兼容 Delete/Update 语句,及大部分常用的 DDL 操作。只需要安装最新版本的ClickHouse就可以体验到这个新特性了,不过该特性还处于experimental阶段,还在不断完善中。

2. 关于ProxySQL

ProxySQL是一款强大的中间件为MySQL的架构提供了有力的支持,支持传统主从复制、半同步复制、MGR、PXC等多种MySQL架构,还支持故障自动检测和切换、连接池、读写分离、日志记录、监控、集群部署等多项实用功能。当然了,ProxySQL最大的缺点是性能损失较大,预计至少有20% ~ 30%的性能损失,因此如果是在高性能场景下可能不太合适。不过可以考虑通过分库分表等方式降低单节点压力,充分发挥ProxySQL的集群功能。

3. 构建HTAP系统

ClickHouse和ProxySQL的安装本文不再赘述,直接开始动手构建HTAP系统。下面是整体架构示意图

3.1 将ClickHouse配置成为MySQL的从库

登入ClickHouse后,执行下面的命令启用新特性:

clickhouse :) SET allow_experimental_database_materialize_mysql = 1;

在ClickHouse中,创建一个复制通道,即可构建一个MySQL复制从库,例如:

clickhouse :) CREATE DATABASE testENGINE = MaterializeMySQL( '172.24.10.10:3306', 'test', 'repl', 'repl');

clickhouse :) use test;

clickhouse :) show tables;

┌─name─────┐

│ sbtest1 │

│ sbtest10 │

│ sbtest11 │

...

32 rows inset. Elapsed: 0.006 sec.

首次创建复制通道后,ClickHouse会快速从MySQL主库读取所有数据并应用,可以查看数据复制的进度:

[root@yejr.run] # cat metadata/sbtest/.metadata

Version: 2

Binlog File: binlog.001496

Executed GTID: 097ee9f2-2ded-11eb-9211-e4434ba52b50:1-952676723

Binlog Position: 789663343

Data Version: 2

提醒:在这里,我设置的是主从复制专用账号。相对于普通的主从复制账号,用于ClickHouse从库的账号至少还要加上只读权限,例如:

[root@yejr.run]> show grants forrepl;

+--------------------------------------------------------------------------+

| Grants forrepl@% |

+--------------------------------------------------------------------------+

| GRANT RELOAD, REPLICATION SLAVE, REPLICATION CLIENT ON *.* TO `repl`@`%` |

| GRANT SELECT ON ` test`.* TO `repl`@`%` |

+--------------------------------------------------------------------------+

ClickHouse的MaterializeMySQL引擎从MySQL复制数据的速度非常之快,甚至比MySQL原生的从库还要更快,大家可以亲身感受体验下。

接下来,再在ClickHouse中创建一个业务账号,以及一个服务监控账号(用于ProxySQL对后端服务的监控)。编辑ClickHouse的配置文件 users.xml,增加两个用户:

app_user

::/0

default

default

monitor

::/0

default

default

我只设置了简单密码,也没有修改其权限和quota模式,仅演示用,线上生产环境请自行调整以合规。

3.2 配置ProxySQL

配置mysql_servers表,增加两条记录,并使配置生效:

proxysql> insert into mysql_servers(hostgroup_id, hostname, port) values( '0', '172.24.10.10', '3306');

proxysql> insert into mysql_servers(hostgroup_id, hostname, port) values( '1', '172.24.10.11', '9004');

proxysql> save mysql servers to disk; load mysql servers to run;

其中,172.24.10.10:3306 是MySQL主库,172.24.10.11:9004是ClickHouse从库,9004端口是ClickHouse里给MySQL客户端连接专用的,可以用MySQL客户端(协议)连接进来执行各种操作。

hostgroup分别为0和1, 0用于读写组,1用于只读组。

配置mysql_users表,加入业务账号和监控账号:

proxysql> select username,password,active from mysql_users;

+-----------+----------+--------+

| username | password | active |

+-----------+----------+--------+

| app_user | app_user | 1 |

| monitor | monitor | 1 |

+-----------+----------+--------+

proxysql> save mysql users to disk; load mysql users to runtime;

配置mysql_query_rules表,这个是关键,用于判断将哪些SQL转发到MySQL主库,哪些转发到ClickHouse:

proxysql> select rule_id, active, match_pattern,destination_hostgroup from mysql_query_rules;

+---------+--------+-------------------------+-----------------------+

| rule_id | active | match_pattern | destination_hostgroup |

+---------+--------+-------------------------+-----------------------+

| 1 | 1 | ^SELECT.*+CLICKHOUSE.* | 1 |

+---------+--------+-------------------------+-----------------------+

proxysql> save mysql query rules to disk; load mysql query rules to run;

上述规则的意思是,当SELECT语句中包含 "+CLICKHOUSE" 关键字时,就会自动转发到 ClickHouse 后端去处理,其余的都发送到MySQL后端处理。例如下面这两条SQL就会分别转发到MySQL和ClickHouse后端:

#SQL #1

[root@yejr.run]> SELECT * FROM sbtest1 WHERE id=1;

#SQL #2

[root@yejr.run]> SELECT /*+CLICKHOUSE*/ * FROM sbtest1 WHERE id=1;

第二条SQL利用MySQL的注释语法巧妙地实现规则HINT。

查询 stats_mysql_query_digest 表的结果予以确认:

proxysql> select hostgroup, schemaname, username, digest, digest_text from stats_mysql_query_digest;

+-----------+------------+----------+--------------------+----------------------------------+

| hostgroup | schemaname | username | digest | digest_text |

+-----------+------------+----------+--------------------+----------------------------------+

| 0 | sbtest | app_user | 0x5662D7CF0442E794 | select * from sbtest1 whereid=? |

| 1 | sbtest | app_user | 0x5662D7CF0442E794 | select * from sbtest1 whereid=? |

+-----------+------------+----------+--------------------+----------------------------------+

可以看到,两条SQL看起来一样,但分别转发到不同的hostgroup了。

最后配置ProxySQL的监控服务(可选,非必须):

proxysql> setmysql-monitor_enabled= "true";

proxysql> setmysql-monitor_username= "monitor";

proxysql> setmysql-monitor_password= "monitor";

proxysql> save mysql variables to disk; load mysql variables to runtime;

至此,一个全部基于开源应用的简易HTAP系统就构建好了。

4. 性能对比

在这里,我选用ClickHouse官方提供的benchmark方案:Star Schema Benchmark。

编译完成后先是利用ssb-dbgen生成测试数据(指定参数 -s 50):

./dbgen -s 50 -T c &

./dbgen -s 50 -T l &

./dbgen -s 50 -T p &

./dbgen -s 50 -T s &

./dbgen -s 50 -T d &

再创建几个测试库表,自行修改建表的DDL以适应MySQL语法。而后导入测试数据,最后根据文档并生成 lineorder_flat 表。

[root@yejr.run]> show table status;

+----------------+--------+---------+------------+-----------+----------------+--------------+

| Name | Engine | Version | Row_format | Rows | Avg_row_length | Data_length |

+----------------+--------+---------+------------+-----------+----------------+--------------+

| customer | InnoDB | 10 | Dynamic | 1378209 | 120 | 166363136 |

| lineorder | InnoDB | 10 | Dynamic | 297927870 | 100 | 29871833088 |

| lineorder_flat | InnoDB | 10 | Dynamic | 292584926 | 430 | 125952851968 |

| part | InnoDB | 10 | Dynamic | 1192880 | 111 | 132792320 |

| supplier | InnoDB | 10 | Dynamic | 99730 | 110 | 11026432 |

+----------------+--------+---------+------------+-----------+----------------+--------------+

数据全部加载完毕后,再在ClickHouse中创建MaterializeMySQL复制通道:

clickhouse :) CREATE DATABASE ssb ENGINE = MaterializeMySQL( '172.24.10.10:3380', 'ssb', 'repl', 'repl');

数据量比较大,耐心静待它复制完成即可。

然后连接 ProxySQL,先简单执行大表count(*),观察耗时的不同:

#直接执行count(*),会转发到后端 MySQL 实例

[root@yejr.run]> select count(*) from lineorder_flat;

+-----------+

| count(*) |

+-----------+

| 300005811 |

+-----------+

1 row inset(3 min 2.14 sec)

#加上HINT规则,会转发到后端 ClickHouse 实例

[root@yejr.run]> select /*+CLICKHOUSE*/ count(*) from lineorder_flat;

+-----------+

| count(*) |

+-----------+

| 300005811 |

+-----------+

1 row inset(5.67 sec)

光是 count(*) 就差了好多倍。

再选取其中前4个SQL测试,记录的耗时如下:

Query

MySQL

ClickHouse(从库)

ClickHouse(原生)

Q1.1

308.388684

0.149

0.107

Q1.2

320.373203

0.280

0.027

Q1.3

279.673361

0.346

0.030

Q2.1

286.451062

1.246

0.489

很明显,直接在MySQL上查询的效率实在太低了,而作为从库的MaterializeMySQL和ClickHouse原生的MergeTree表虽然也有一定差距,但相差也没那么大了,还算是很快的。

4. 其他说明

ClickHouse的MaterializeMySQL中 不支持 create like 语法。例如执行 create table db2.a like db1.a,其中db1是要复制到ClickHouse的,而db2是留在MySQL端,即便这样也会导致ClickHouse端复制报错,需要重启才行。

ClickHouse的MaterializeMySQL中也 不支持函数索引。

偶尔发现ProxySQL的监控模块连接到ClickHouse后,会发送 SET wait_timeout=N 命令,会导致ClickHouse报错,但不影响正常使用。 重启ProxySQL,或者重启监控开关都可以解决。

Enjoy it :)

责任编辑:

mysql htap 开源_基于开源应用快速构建HTAP系统相关推荐

  1. Java微服务_医疗管理项目_基于若依快速开发框架

    一.项目简介 项目简介:尚医疗是专门为各大医院.门]诊提供的一款医疗管理平台.系统包含:系统 管理.药品进销存管理.看病就诊.收费管理.检查管理.数据统计等核心模块.通过尚医 疗系统可以快速方便的管理 ...

  2. DoNet开源项目-基于Amaze UI的点餐系统

    本文转载于 石佳劼的博客,有问题请到原文咨询,原文连接. 点餐系统 帮朋友做的点餐系统,主要是为了让顾客在餐桌上,使用微信扫描二维码,就可以直接点菜,吃完使用微信付款. 系统演示地址,账户名和密码均为 ...

  3. c语言编写订货系统,学位论文_基于c语言的仓库订货系统的仿真.doc

    学位论文_基于c语言的仓库订货系统的仿真 本科毕业论文(设计.创作) 题目: 基于C语言的仓库订货系统的仿真 学生姓名: 学号: 所在系院: 信息与通信技术系 专业: 电子信息工程 入学时间: 201 ...

  4. 基于开源应用快速构建HTAP系统(2)-阿里云开发者社区

    上述规则的意思是,当SELECT语句中包含 "+CLICKHOUSE" 关键字时,就会自动转发到 ClickHouse 后端去处理,其余的都发送到MySQL后端处理.例如下面这两条 ...

  5. soapui工具_基于开源的API测试工具!不再为web服务负载测试而发愁

    通过一个可视化.拖拽式的界面,LoadUI允许您实时.交互式地创建.配置和重分配负载测试.在单一测试环境下,LoadUI提供完整的测试覆盖,支持所有标准的协议和技术.它功能强大,能从任意数量的本地和远 ...

  6. 开源推荐 | 基于 Laravel 的博客 CMS 系统

    系统介绍 ModStart 是一个基于 Laravel 模块化极速开发框架.模块市场拥有丰富的功能应用,支持后台一键快速安装,让开发者能快的实现业务功能开发. 系统完全开源,基于 Apache 2.0 ...

  7. 桌面助手开源_用开源设计桌面游戏

    桌面助手开源 按需印刷行业是我最喜欢的技术创新产品之一. 它消除了网守,消除了物理批量生产的瓶颈. 它为任何人提供了一个好主意,并激发了产生它的动力,使他们的工作走向世界. 按需打印与开放源代码软件相 ...

  8. 开源代码 不开源_提供开源代码反馈的4个最佳实践

    开源代码 不开源 在上一篇文章中,我为您提供了如何获得反馈的提示,尤其是在您第一次免费和开源项目的背景下. 现在该讨论同一枚硬币的另一面: 提供反馈. 如果我告诉您您所做的贡献是"愚蠢&qu ...

  9. MySQL长途售票系统_基于SSH的长途汽车票务售票系统的设计(Struts2,MySQL)(含录像)...

    基于SSH的长途汽车票务售票系统的设计(Struts2,MySQL)(含录像)(毕业论文说明书14000字,程序代码,MySQL数据库)摘  要 随着科学技术的不断提高,计算机科学日渐成熟,其强大的功 ...

最新文章

  1. 论文笔记之:Action-Decision Networks for Visual Tracking with Deep Reinforcement Learning
  2. boost::hana::index_if用法的测试程序
  3. 使用Injection Token将字符串类型的参数注入到类的构造函数里
  4. SAP CRM enterprise search index调试细节
  5. 【SQL】分组数据,过滤分组-group by , having
  6. 权限系统设计学习总结(4)—— SaaS 平台多租户模式下权限设计
  7. 十二个月内 仅仅依靠Google打造成功网站
  8. 关于sophus模板类需要注意的情况(error: missing template arguments before ‘SO3_R’)
  9. 提高网页效率的14条准则
  10. Github上十大C#开源项目排行榜
  11. 使用暴风激活激活系统,浏览器被劫持问题解决
  12. java判断接口地址是否存在_java.util.Iterator接口中的hashNext()方法是用来判断集合中是否存在下一个元素的()_学小易找答案...
  13. jscript错误代码及相应解释大全( 选择自 jmylf 的 Blog )
  14. ailess给您介绍互联网黑帽seo技术
  15. python实现微信聊天机器人_用python玩微信,实现聊天机器人,新手必学
  16. java计算机毕业设计游泳馆信息管理系统源码+数据库+系统+部署+lw文档
  17. 汉语拼音工具包相关实用方法
  18. weui学习总结——1、weui表单常用标签
  19. 融云 WICC:Unity、Beeto、荔枝、阿里云、StarMaker、LiveMe、积目…花城论剑
  20. PHP error_reporting

热门文章

  1. html ol圆点,HTML ol 标签 type属性
  2. 对勾函数_对勾函数的图像及其性质1.pptx
  3. Beyond Compare文件对比工具中文网站来啦
  4. Google Earth Engine ——重采样过程中的错误
  5. 基于SSM的垃圾分类管理系统-含论文【数据库设计、论文、源码、开题报告】
  6. 12月更新 - 可能是最好用百度网盘搜索神器
  7. 微信第三方开发行业解决方案
  8. 姚振华,一个想要胜天半子的男人
  9. 达人评测R5 7530U和r5 5600u选哪个好
  10. 马云思考阿里下一个15年:大数据是未来核心