直方图(Histogram)是 RDBMS 中提供的一种基础的统计信息,最典型的用途是估计查询谓词的选择率,以便选择优化的查询执行计划。常见的直方图种类有:等宽直方图、等高直方图、V-优化的直方图,MaxDiff 直方图等等。RDBMS 产品最初使用的直方图非常简单(只有一个桶),后来逐步演化到等宽直方图、等高直方图等。MariaDB 10.0.2 就已在 server 层实现了直方图功能,参考Take into account the selectivity 和 Histogram based statistics。MySQL 在8.0.0 中也引入了直方图,参考WL#8706和WL8707。

MySQL 直方图的功能

直方图会持久化存储到一个新的系统表 mysql.column_stats,表名与 MariaDB 的一样,但是定义是不同的。直方图的主要数据保存在一个 JSON 类型的名为 histogram 的列中。因为 8.0 的字典表都采用了 InnoDB 引擎,这个表也不例外。 该特性支持所有的数据类型,包括数值类型、字符串、大对象、枚举类型等,也支持 GENERATED COLUMN。

MySQL 支持两种类型的直方图,第一种是等宽直方图的一种特殊情况,每个桶只有一个值,因此只需要保存该值和累积的频率。另一种是等高直方图,每个桶需要保存下界、上界、累积频率以及不同值的个数(Number of Distinct Value,NDV)。这两种直方图与 Oracle 的是类似的,见Histograms Part 1/Part 2/Part 3。

执行 ANALYZE TABLE [table] UPDATE HISTOGRAMS 命令可以产生表上各列的直方图,默认情况下这些信息会被复制到备库。

在文件 scripts/mysql_systemtables.sql 中可以看到该表的定义:

--

-- Column statistics

--

CREATE TABLE IF NOT EXISTS column_stats (

database_name VARCHAR(64) NOT NULL,

table_name VARCHAR(64) NOT NULL,

column_name VARCHAR(64) NOT NULL,

histogram JSON NOT NULL,

PRIMARY KEY (database_name, table_name, column_name)

) ENGINE=InnoDB CHARACTER SET=utf8 COLLATE=utf8_bin

COMMENT="Column statistics";

下面是这两种直方图的示例。

Equi-height JSON definition

---------------------------

{

// Last time the histogram was updated. As of now, this means "when the

// histogram was created" (incremental updates are not supported). Date/time

// is given in UTC.

// -- J_DATETIME

"last-updated": "2015-11-04 15:19:51.000000",

// Histogram type. Always "equi-height" for equi-height histograms.

// -- J_STRING

"histogram-type": "equi-height",

// Histogram buckets. This will always be at least one bucket.

// -- J_ARRAY

"buckets":

[

[

// Lower inclusive value.

// -- Data type depends on the source column.

"0",

// Upper inclusive value.

// -- Data type depends on the source column.

"002a38227ecc7f0d952e85ffe37832d3f58910da",

// Cumulative frequence

// -- J_DOUBLE

0.001978728666831561,

// Number of distinct values in this bucket.

// -- J_UINT

10

]

]

}

Singleton JSON definition

-------------------------

{

// Last time the histogram was updated. As of now, this means "when the

// histogram was created" (incremental updates are not supported). Date/time

// is given in UTC.

// -- J_DATETIME

"last-updated": "2015-11-04 15:19:51.000000",

// Histogram type. Always "singleton" for singleton histograms.

// -- J_STRING

"histogram-type": "singleton",

// Histogram buckets. This will always be at least one bucket.

// -- J_ARRAY

"buckets":

[

[

// Value value.

// -- Data type depends on the source column.

42,

// Cumulative frequence

// -- J_DOUBLE

0.001978728666831561,

]

]

}

MySQL 直方图的实现

MySQL 8.0 的代码做过不少重整,目录结构也比以前清楚多了。直方图的源代码都在目录sql/histograms 下,包括以下文件。

equi_height_bucket.cc

equi_height_bucket.h

equi_height.cc

equi_height.h

histogram.cc

histogram.h

singleton.cc

singleton.h

对应的单元测试文件为:unittest/gunit/histograms-t.cc。可以看到,代码用到了 C++11 的一些特性,并且还写了比较完整的单元测试,可读性很好。代码主要部分是这三个类:直方图的基类 Histogram,以及实现等宽直方图、等高直方图的两个类 Singleton 和 Equi_height。

对外的主要接口是创建直方图的函数:

template

Histogram *build_histogram(MEM_ROOT *mem_root,

const value_map_type &value_map,

ha_rows num_null_values, size_t num_buckets,

std::string db_name, std::string tbl_name,

std::string col_name)

输入的数据需要放到一个 map 里头,表示每个值以及对应的出现次数,map 是按照值排序的。直方图一般不会对表中的所有数据逐行进行分析建立,这样做的代价太高了;很多实现都是通过对数据采样进行的。因此,这里用 map 而不是 iterator 也是比较自然的。如果桶的个数(num_buckets)比不同值的个数要大,则自动选择创建一个等宽直方图;否则创建一个等高直方图。

/*

If the number of buckets specified is greater or equal to the number

of distinct values, we create a Singleton histogram. Otherwise we create

an equi-height histogram.

*/

if (num_buckets >= value_map.size())

{

Singleton *singleton=

new(mem_root) Singleton(mem_root, db_name, tbl_name, col_name);

..

if (singleton->build_histogram(value_map, num_null_values))

return nullptr; /* purecov: inspected */

..

}

else

{

Equi_height *equi_height=

new(mem_root) Equi_height(mem_root, db_name, tbl_name, col_name);

..

两种直方图的创建逻辑都比较简单,可以参看: Singleton::build~histogram~() 和 Equi~height~::build~histogram~()。

总结

通过参考资料中的内容,与 Oracle、MariaDB 做个对比,很容易发现 MySQL 8.0 目前实现的直方图还只是提供了最基础的功能,还不能用来改进查询执行计划。

Footnotes

mysql直方图_MySQL · 特性分析 · 直方图的实现与分析相关推荐

  1. mysql8.0 直方图_MySQL创建横向直方图

    备注:测试数据库版本为MySQL 8.0 如需要scott用户下建表及录入数据语句,可参考: scott建表及录入数据sql脚本 一.需求 使用SQL生成横向延伸的直方图. 例如,采用横向直方图显示每 ...

  2. 影响索引的mysql函数_mysql索引对排序的影响实例分析

    本文实例讲述了mysql索引对排序的影响.分享给大家供大家参考,具体如下: 索引不仅能提高查询速度,还可以添加排序速度,如果order by 后面的语句用到了索引,那么将会提高排序的速度. 测试 1. ...

  3. mysql 8.0 直方图_MySQL 8.0 中统计信息直方图的尝试

    直方图是表上某个字段在按照一定百分比和规律采样后的数据分布的一种描述,最重要的作用之一就是根据查询条件,预估符合条件的数据量,为sql执行计划的生成提供重要的依据 在MySQL 8.0之前的版本中,M ...

  4. mysql 8.0 新特性 统计直方图 优化执行计划SQL查询

    |  概览 MySQL8.0实现了统计直方图.利用直方图,用户可以对一张表的一列做数据分布的统计,特别是针对没有索引的字段.这可以帮助查询优化器找到更优的执行计划.统计直方图的主要使用场景是用来计算字 ...

  5. mysql 5.7 缺点_MySQL · 特性分析 · MySQL 5.7 外部XA Replication实现及缺陷分析

    MySQL 5.7 外部XA Replication实现及缺陷分析 MySQL 5.7增强了分布式事务的支持,解决了之前客户端退出或者服务器关闭后prepared的事务回滚和服务器宕机后binlog丢 ...

  6. python画直方图代码-Python绘制直方图及子图的方法分析(代码示例)

    本篇文章给大家带来的内容是关于Python绘制直方图及子图的方法分析(代码示例),有一定的参考价值,有需要的朋友可以参考一下,希望对你有所帮助. 1.直方图的绘制也需要用到matplotlib下的py ...

  7. 使用OpenCV,Numpy计算直方图,Matplot绘制直方图及分析

    使用OpenCV,Numpy计算直方图,Matplot绘制直方图及分析 1. 效果图 2. 原理 3. 源码 3.1 直方图3种计算方法和2种绘制方法 3.2 Mask遮罩图像直方图 参考 这篇博客将 ...

  8. 【多元统计分析与R语言】【详解】使用教材P84页表3-2进行多元数据简单R分析:定量变量的分析(直方图、散点图)、定性变量的分析并绘制绘制均值条图、箱尾图、星相图、调和曲线图

    可视化[教材P84页表3-2] 1.题目 2.题目详解 2.1.多元数据简单R分析:定量变量的分析(直方图.散点图).定性变量的分析(单因素分析.多维列联表).参考教材P45-P52页. 2.2.绘制 ...

  9. mysql索引_mysql系列:深入理解mysql 索引特性(屡试不爽的mysql索引总结)

    原标题:mysql系列:深入理解mysql 索引特性(屡试不爽的mysql索引总结) mysql为什么使用B+ Tree索引,不使用B- Tree索引? 索引顺序如何生效? 什么是覆盖索引? orde ...

最新文章

  1. Today:基于 Electron 和 Vue.js 的 GTD 应用
  2. stm32单片机屏幕一直闪_STM32F407[3] 闪烁LED
  3. 海淘会不会成为电商的下一片蓝海?
  4. 删除360浏览器新标签页内的热词导航
  5. java定义一个方法,返回一个整数数组的和
  6. 图像频域增强:低通滤波器
  7. linux 中文交互最好,与linux相交互 - wsdsb的个人空间 - OSCHINA - 中文开源技术交流社区...
  8. 存储卡修复软件测试自学,扩容内存卡用mydisktest失效,教你怎么用USBoot恢复出真实容量...
  9. CAD增强属性块的还原
  10. 前端面试被问到项目中的难点有哪些?
  11. 使用HBuilder制作一个简单的HTML5动漫网页——紫罗兰永恒花园动漫价绍网页 7页
  12. 云计算OpenStack环境搭建
  13. 深入了解机器学习 (Descending into ML):训练与损失
  14. 成为阿里云大使的笔记
  15. 如何按照规格型号表挑选合适的快速接头
  16. MySQL教程——4 高级篇(性能调优、锁)
  17. JMS578开PS3111固件方法,SATA/USB通用,附群联PS3111量产开卡软件
  18. CSDN日报19035——流浪地球 春节十二响程序开源代码
  19. java手电筒源码_android平台手电筒开发源代码
  20. excel多条件计数python_python脚本实现-excel二级统计

热门文章

  1. 初中计算机期末质量分析,信息技术期末质量分析
  2. 计算机插补,插补原理及控制方法
  3. 800套绝美PPT模板免费下载
  4. python学习——函数
  5. jeDate—选择日期后,再点开重新选择时间,日期会被置为今日日期
  6. 神马笔记 版本1.3.0
  7. 复现ReDet RTX 3090 pytorch1.8.1
  8. Redis篇 <一>Docker安装redis 及基础
  9. Vue3 Echarts散点图+高德地图+卫星地图(一)——获取高德地图API
  10. 搭建SPA项目SPA项目中使用路由嵌套路由