怎样用mysql查询测试_如何测试数据库查询优化器

我一直认为，查询优化器(Query Optimizer，后面简称优化器)一直是数据库领域 Top 级别的 hardcore 技术，自己也一直尝试去深入理解，但每每看到 TiDB 代码里面那一大坨 plan 的代码，我就望而生畏了，就像是『可远观而不可亵玩焉』。但虽然很难理解，还是能通过方式去理解优化器的，一个最直观的做法就是生成不同的 Query 去验证优化器的效果，实际在 PingCAP 内部，我们也是通过 Fuzz， A/B testing 等技术，来验证优化器是否出现性能问题这些。

但无论怎样，优化器的验证和测试工作是一件非常难的事情，毕竟对于一条 Query，数据库可能会生成非常多的查询计划(plan)，我们当然可以通过穷举的方式找到最优的一条 plan，但实际中，我们只能在有限的时间内找到一个比较优的 plan。那么我们如何能确定优化器找到的是一条比较好的 plan 呢？自然需要有一些评价标准，最近看了几篇 Paper，刚好在这个上面做了研究，也对我们后续测试的改良提供了一些方向吧。

OptMark: A Toolkit for Benchmarking Query Optimizers

首先是 OptMark: A Toolkit for Benchmarking Query Optimizers 这篇 Paper，里面提到了验证优化器的两个指标 - Effectiveness 和 Efficiency。对于 Effectiveness 来说，它主要是衡量优化器对于某条 Query 生成的 plan 的质量，而 Efficiency 则是衡量生成的 plan 的资源消耗。

Effectiveness 主要有两个指标，一个是 Performance Factor，一个则是 Optimality Frequency，Performance Factor 计算公式如下：

对于任何 query q 以及优化器 Od 来说，PF 衡量的是在搜索空间里面的 plans，比优化器选择的 plan 要差的比例。Od(q) 是优化器对于 q 生成的 plan，Pd(q) 则是所有可能被执行的 plan，r(D, p) 则是 plan p 执行的时间，而 r(D, Od(q)) 则是优化器选择的 plan 执行的时间。有了 PF，我们就能得到 Optimality Frequency，如果 PF = 1，就表明优化器找到了一条相对不错的 plan。

当然，实际中我们很难将搜索空间全部遍历出来，所以通常我们都只是会找足够多的 plan，Paper 里面提到了 Sample Size 的概念，也就是会有一个信心指数的计算，直白的说，就是如果我们需要有 x% 的信心，以及 y% 的精确度来计算 PF，那么就需要生成 n 个 plans 这种，具体的计算方法可以参考论文 2.1.2 章节。

要验证 Effectiveness，论文使用了如下方式：

对于一条 Query，对里面的 Join 随机进行重新排序

对于 join 的两个 table，如果没有指定 join 方式，则使用 cross join，否则则随机从 joinType() 里面选择一个 physical join，譬如 hash，index merge 等。

对任何 table，随机选择一种扫描方式，譬如使用某个 index，或者全表扫

生成一条 plan，去执行。然后重复执行上述操作，直到满足我们之前说的信心指数。

对于 Efficiency 来说，论文并没有用传统的衡量执行时间的方式，而是选用了 4 个指标：#LP - 枚举的 logical plan个数

#JO - 枚举的 join 顺序个数

#PP - 总的有开销的 physical plan 的个数

#PJ - 总的有开销的 physical join plan 的个数

论文里面将这些指标直接加到了 MySQL 和 PG 的代码里面进行统计，这个也就是开源的好处了，能直接改代码，后面也可以试试 TiDB。

总的来说，OptMark 这篇 Paper 从 Effectiveness 和 Efficiency 两个维度来告诉我们如何测试一个数据库的查询计划，而且也比较容易实施。不过，在测试 Effectiveness 生成 plan 的时候，其实我有点怀疑数据库到底会不会按照这条 plan 去执行。

Counting, Enumerating, and Sampling of Execution Plans in a Cost-Based Query Optimizer

在前面那篇 Paper 里面，OptMark 使用的是一种 random join ordering 的方式来对一条 query 进行 join 的顺序变换，然后对 join 的 table 选择不同的 join 算法，以及对每个 table 使用不同的查询方式，那么有没有其他的办法来对一条 Query 生成执行计划，并且让数据库执行呢？

然后刚好看到了一篇不错的 Paper，Counting, Enumerating, and Sampling of Execution Plans in a Cost-Based Query Optimizer，其中提到了一个很不错的方式，就是通过 MEMO 这种数据结构，来建立好数字和 plan 的对应关系，我们只要给出一个数字，就能执行对应的 plan。

首先，对于一条 Query，我们可以有一个非常简单的 plan，并且用这个 plan 来生成 MEMO 结构

当生成 MEMO 之后，我们就可以对 logical operators 进行变换，一个转换规则可以是：在同一个 group 里面的 logical operator，譬如 join(A, B) -> join(B, A)

在同一个 group 里面的 physical operator，譬如 join -> hash join

一组能连接多个 sub plan 的 logical operators，譬如 join(A, join(B, C)) -> join(join(A, B), C)

然后做完转换之后，MEMO 表现就更丰富了，如下：

最后一项预备工作，就是抽出所有的 physical operators，并且具现化这个 operators 和它们的可能 children 的连接，如下：

当做完了如上三个步骤，就可以通过 MEMO 这个数据结构算出来总的 Query Plans，算法可以直接看 Paper 3.2 章节，其实就是自下而上遍历每个可能 plan 的个数并且汇总。当我们得到了总的 plan 个数，就可以通过 unranking 算法知道某个 position 上面对应的 plan，具体的 unranking 算法可以参考 3.2。当构造了这些信息之后，我们就可以在 query 里面直接指定使用某个 plan 了，如下：

其实这个方式非常的巧妙，现在 TiDB 是不支持的，没准可以试试支持下，应该也不困难。

Testing the Accuracy of Query Optimizers

除了上面两篇 Paper，还看了一篇，Testing the Accuracy of Query Optimizers，讲的是如何测试优化器的精确度，其实就是一个 estimate time 和实际 execution time 的 pair 对比吧，会计算一个相关性 score，类似如下：

可以看到，上面 4 个 plan，P1 和 P2 其实明显会比 P3 和 P4 要好。

然后 Paper 的作者做了一个 TAQO 系统，如下：

流程比较通俗易懂，不多做解释了，反正可以结合上面第一篇 paper，来验证优化器的效果吧。

总结

上面列了几篇，我们当然是想应用到 TiDB 来验证优化器的效果的，当然另外，我们也可以通过让优化器强制使用不用的 plan，来看优化器会不会有 bug，譬如对于第二篇 paper，没准我们使用 plan 8 得到的值跟 plan 9 不一样，这事情就有意思了。

总的来说，优化器这个方向是一个非常 hardcore 的东西，不光是测试上面，还包括如何实现一个高效的优化器上面，我们需要非常多的技术储备，如果你对这方面感兴趣，欢迎联系我 tl@pingcap.com。

怎样用mysql查询测试_如何测试数据库查询优化器相关推荐

delphi 数据上移下移_脑图-数据库查询优化器的艺术
这次阅读了<数据库查询优化器的艺术:原理解析与SQL性能优化>这本书,主要介绍数据库的查询优化,但是感觉这本书重复内容较多,在通过源码介绍PostgreSQL和MySQL的章节中,相对来说 ...
mysql查询耗时_一种数据库高耗时查询的自动取消方法与流程
本发明涉及数据库的查询方法,特别涉及一种数据库高耗时查询的自动取消方法. 背景技术: 有很多关系型数据库查询业务非常耗时,比如查询企业实时报表之类的,一次查询可能需要几分钟甚至更长.在很多时候,前端业 ...
提高mysql查询速度_如何提高数据库查询速度
1.用程序中, 保证在实现功能的基础上,尽量减少对数据库的访问次数: 通过搜索参数,尽量减少对表的访问行数,最小化结果集,从而减轻网络负担: 能够分开的操作尽量分开处理,提高每次的响应速度: 在数据窗 ...
pg数据库生成随机时间_如何测试数据库查询优化器
我一直认为,查询优化器(Query Optimizer,后面简称优化器)一直是数据库领域 Top 级别的 hardcore 技术,自己也一直尝试去深入理解,但每每看到 TiDB 代码里面那一大坨 pl ...
软件测试_APP测试_兼容性测试
APP的兼容测试主要就是测试APP的安装.启动.运行.卸载测试,以及安装时间 .启动时间.CPU占用.内存占用.流量耗用.电量耗用等性能上的测试. 兼容性测试点: 一.内部兼容性: 1.与本地和其他主 ...
mysql查询交叉连接_复杂的MySQL查询，联合，交叉或自然连接？
MySQL查询有一个奇怪的问题,我无法真正弄清楚如何按照我的意愿组织数据. 我正在PHP中构建搜索脚本,但数据库结构并非如我所愿. 好的,假设我有三张桌子(这些桌子完全组成): EMPLOYES id ...
qa 芯片测试_芯片测试术语介绍CP、FT、WAT
CP.FT.WAT CP是把坏的Die挑出来,可以减少封装和测试的成本.可以更直接的知道Wafer 的良率.FT是把坏的chip挑出来:检验封装的良率. 现在对于一般的wafer工艺,很多公司多把CP ...
web兼容性测试 _ Web测试指南（四）
4.1 平台测试市场上有很多不同的操作系统类型,最常见的有Windows.Unix.Macintosh.Linux等.Web应用系统的最终用户究竟使用哪一种操作系统,取决于用户系统的配置.这样,就可 ...
java 项目测试_项目测试工作流程
第一轮测试,第二轮测试,第三轮测试,日常测试,预发测试,线上测试由于为新起项目,日常测试部分可以忽略,不用上日常测试环境,项目测试环境即是日常测试环境,该部分在第一次做项目时,容易忽视. 各个阶段测 ...

怎样用mysql查询测试_如何测试数据库查询优化器

怎样用mysql查询测试_如何测试数据库查询优化器相关推荐

最新文章

热门文章