来源 | https://juejin.cn/post/6844903939247177741

从一个问题说起

五年前发现分页场景下,mysql请求速度非常慢。数据量只有10w的情况下,select xx from 单机大概2,3秒。我就问我导师为什么,他反问“索引场景,mysql中获得第n大的数,时间复杂度是多少?”

答案的追寻

确认场景

假设status上面有索引。select * from table where status = xx limit 10 offset 10000。会非常慢。数据量不大的情况就有几秒延迟。

小白作答

瞎猜了个log(N),心想找一个节点不就是log(N)。自然而然,导师让我自己去研究。

这一阶段,用了10分钟。

继续解答

仔细分析一下,会发现通过索引去找很别扭。因为你不知道前100个数在左子树和右子数的分布情况,所以其是无法利用二叉树的查找特性。通过学习,了解到mysql的索引是b+树。

看了这个图,就豁然开朗了。可以直接通过叶子节点组成的链表,以o(n)的复杂度找到第100大的树。但是即使是o(n),也不至于慢得令人发指,是否还有原因。

这一阶段,主要是通过网上查资料,断断续续用了10天。

系统学习

这里推荐两本书,一本《MySQL技术内幕 InnoDB存储引擎》,通过他可以对InnoDB的实现机制,如mvcc,索引实现,文件存储会有更深理解。

第二本是《高性能MySQL》,这本书从着手使用层面,但讲得比较深入,而且提到了很多设计的思路。

两本书相结合,反复领会,mysql就勉强能登堂入室了。

这里有两个关键概念:

  • 聚簇索引:包含主键索引和对应的实际数据,索引的叶子节点就是数据节点

  • 辅助索引:可以理解为二级节点,其叶子节点还是索引节点,包含了主键id。

即使前10000个会扔掉,mysql也会通过二级索引上的主键id,去聚簇索引上查一遍数据,这可是10000次随机io,自然慢成哈士奇。这里可能会提出疑问,为什么会有这种行为,这是和mysql的分层有关系,limit offset 只能作用于引擎层返回的结果集。换句话说,引擎层也很无辜,他并不知道这10000个是要扔掉的。以下是mysql分层示意图,可以看到,引擎层和server层,实际是分开的。

直到此时,大概明白了慢的原因。这一阶段,用了一年。

触类旁通

此时工作已经3年了,也开始看一些源码。在看完etcd之后,看了些tidb的源码。无论哪种数据库,其实一条语句的查询,是由逻辑算子组成。

逻辑算子介绍 在写具体的优化规则之前,先简单介绍查询计划里面的一些逻辑算子。

  • DataSource 这个就是数据源,也就是表,select * from t 里面的 t。

  • Selection 选择,例如 select xxx from t where xx = 5 里面的 where 过滤条件。

  • Projection 投影, select c from t 里面的取 c 列是投影操作。

  • Join 连接, select xx from t1, t2 where t1.c = t2.c 就是把 t1 t2 两个表做 Join。

选择,投影,连接(简称 SPJ) 是最基本的算子。其中 Join 有内连接,左外右外连接等多种连接方式。

select b from t1, t2 where t1.c = t2.c and t1.a > 5 变成逻辑查询计划之后,t1 t2 对应的 DataSource,负责将数据捞上来。上面接个 Join 算子,将两个表的结果按 t1.c = t2.c连接,再按 t1.a > 5 做一个 Selection 过滤,最后将 b 列投影。下图是未经优化的表示:

所以说不是mysql不想把limit, offset传递给引擎层,而是因为划分了逻辑算子,所以导致无法直到具体算子包含了多少符合条件的数据。

怎么解决

《高性能MySQL》提到了两种方案

方案一

根据业务实际需求,看能否替换为下一页,上一页的功能,特别在ios, android端,以前那种完全的分页是不常见的。这里是说,把limit, offset,替换为>辅助索引(即搜索条件)id的方式。该id再调用时,需要返回给前端。

方案二

正面刚。这里介绍一个概念:索引覆盖:当辅助索引查询的数据,只有id和辅助索引本身,那么就不必再去查聚簇索引。

思路如下:`select xxx,xxx from in (select id from table where second_index = xxx limit 10 offset 10000)`` 这句话是说,先从条件查询中,查找数据对应的数据库唯一id值,因为主键在辅助索引上就有,所以不用回归到聚簇索引的磁盘去拉取。再通过这些已经被limit出来的10个主键id,去查询聚簇索引。这样只会十次随机io。在业务确实需要用分页的情况下,使用该方案可以大幅度提高性能。通常能满足性能要求。

往期推荐

2021 年4月数据库流行度排行榜出炉!Snowflake 和 Clickhouse上升迅速!

2021年3月程序员工资统计数据出炉,又拖后腿了……

涨姿势:另类的表情域名赚钱大法!!

90%的开发都不太考虑这个,但只要出问题直接公司完蛋!

MySQL主从原理,基于快速学习一门技术的3种方式!

如果你喜欢本文,欢迎关注我,订阅更多精彩内容

关注我回复「加群」,加入Spring技术交流群

喜欢的这里报道

↘↘↘

分页场景(limit, offset)为什么会慢?相关推荐

  1. 分页场景(limit,offset)为什么会慢?

    点击关注公众号,Java干货及时送达 来源 | juejin.im/post/5c4db295e51d4503834d9c43 从一个问题说起 五年前在tx的时候,发现分页场景下,mysql请求速度非 ...

  2. 分页的limit_分页场景(limit,offset)为什么会慢

    链接:http://t.cn/AidABz08 从一个问题说起 五年前在腾讯的时候,发现分页场景下,mysql请求速度非常慢.数据量只有10w的情况下,select xx from 单机大概2,3秒. ...

  3. 给你讲讲五年前在腾讯遇到的,海量数据分页场景(limit,offset)为什么会慢

    链接:http://t.cn/AidABz08 从一个问题说起 五年前在腾讯的时候,发现分页场景下,mysql请求速度非常慢.数据量只有10w的情况下,select xx from 单机大概2,3秒. ...

  4. YII2框架中 where limit offset 函数对分页的使用

    YII2框架中 where limit offset 函数对分页的使用 以前公司用的是TP框架,直接往limit函数里面传两个动态的参数就可以实现分页的效果了,刚换了公司这个公司用的是YII2 框架, ...

  5. 从 MySQL 执行原理告诉你:为什么分页场景下,请求速度非常慢?

    从一个问题说起 五年前在腾讯的时候,发现分页场景下,mysql请求速度非常慢.数据量只有10w的情况下,select xx from 单机大概2,3秒. 我就问我师父为什么,他反问"索引场景 ...

  6. Mysql 分页语句Limit用法

    1.Mysql的limit用法 在我们使用查询语句的时候,经常要返回前几条或者中间某几行数据,这个时候怎么办呢?不用担心,mysql已经为我们提供了这样一个功能. Sql代码   SELECT * F ...

  7. mysql不用limit怎么分页_mysql limit 分页的用法及注意要点

    mysql limit 分页的用法及注意事项: 在我们使用查询语句的时候,经常要返回前几条或者中间某几行数据,这个时候怎么办呢?不用担心,mysql已经为我们提供了这样一个功能. SELECT * F ...

  8. mysql limit 分页 0_Mysql分页之limit用法与limit优化

    Mysql limit分页语句用法 与Oracle和MS SqlServer相比,mysql的分页方法简单的让人想哭. --语法: SELECT * FROM table LIMIT [offset, ...

  9. mysql limit offset很大_MySQL查询中LIMIT的大offset导致性能低下浅析

    前言 我们大家都知道,mysql查询使用select命令,配合limit,offset参数可以读取指定范围的记录,但是offset过大影响查询性能的原因及优化方法 我们在业务系统中难免少不了分页的需求 ...

最新文章

  1. 快速浏览Silverlight3 Beta:当HLSL遇上Silverlight
  2. 051_Unicode字符官方标准二
  3. 十一、深入JavaScript的定时器(七)
  4. 妖帝q群机器人_有关酷Q 晨风机器人,契约 qqlite qqlight ,mypc等QQ机器人关停一事的一点想法...
  5. 阿里为什么推荐使用LongAdder,而不是volatile?
  6. anki 新的卡片类型_用 Anki 建立高效复习错题体系
  7. 系统引导的过程一般包括如下几步: 【 】_20190317工控维修日记(西门子系统第二讲)...
  8. 程序阅读:简单C++学生信息管理系统
  9. 解决fiddler无法抓取localhost数据的问题
  10. 【原理】 进程调度算法
  11. Sybase数据库的备份
  12. c语言病毒分析(转)
  13. Cloudflare找不到服务器 IP 地址
  14. 智慧语录(人生哲学)
  15. ADI DSP的寄存器详细说明在哪里?
  16. 读《Linux应急响应》笔记(未完待续)
  17. android全屏视频播放,JieCaoVideoPlayer真正实现Android的全屏视频播放
  18. 天气灾害预警 API接口 查询灾害预警内容
  19. mysql5.7.12免安装版配置_【MySql学习笔记】免安装版5.7.12 windows配置方法
  20. 最新计算机二级c语言程序设计题库,2016年计算机二级考试C语言程序设计真题题库.doc...

热门文章

  1. VirtualBox中为WinXP虚拟机添加主体机共享
  2. linux DNS辅域
  3. MyEclipse中配置Web Service Client可能遇到问题及解决方案(转)
  4. linux kprobe rootkit 简介
  5. redis 多数据库 database配置项解析
  6. js改变img标签的src属性在IE下没反应的解决方法
  7. vm虚拟机安装系统后出现operating system not found解决办法(VM装ghost 不能进系统的解决方法)
  8. Android中的URI
  9. TCP/IP详解--第三章
  10. 亚马逊AWS-EC2云服务器部署代理服务