链接:http://t.cn/AidABz08

从一个问题说起

五年前在腾讯的时候,发现分页场景下,mysql请求速度非常慢。数据量只有10w的情况下,select xx from 单机大概2,3秒。我就问我师父为什么,他反问“索引场景,mysql中获得第n大的数,时间复杂度是多少?”

答案的追寻

确认场景

假设status上面有索引。select * from table where status = xx limit 10 offset 10000。会非常慢。数据量不大的情况就有几秒延迟。

小白作答

那时候非常有安全感,有啥事都有师父兜着,反正技术都是组里最差的,就瞎猜了个log(N),心想找一个节点不就是log(N)。自然而然,师父让我自己去研究。

这一阶段,用了10分钟。

继续解答

仔细分析一下,会发现通过索引去找很别扭。因为你不知道前100个数在左子树和右子数的分布情况,所以其是无法利用二叉树的查找特性。通过学习,了解到mysql的索引是b+树。


看了这个图,就豁然开朗了。可以直接通过叶子节点组成的链表,以o(n)的复杂度找到第100大的树。但是即使是o(n),也不至于慢得令人发指,是否还有原因。

这一阶段,主要是通过网上查资料,断断续续用了10天。

系统学习

这里推荐两本书,一本《MySQL技术内幕 InnoDB存储引擎》,通过他可以对InnoDB的实现机制,如mvcc,索引实现,文件存储会有更深理解。

第二本是《高性能MySQL》,这本书从着手使用层面,但讲得比较深入,而且提到了很多设计的思路。

两本书相结合,反复领会,mysql就勉强能登堂入室了。

这里有两个关键概念:

  • 聚簇索引:包含主键索引和对应的实际数据,索引的叶子节点就是数据节点

  • 辅助索引:可以理解为二级节点,其叶子节点还是索引节点,包含了主键id。

即使前10000个会扔掉,mysql也会通过二级索引上的主键id,去聚簇索引上查一遍数据,这可是10000次随机io,自然慢成哈士奇。这里可能会提出疑问,为什么会有这种行为,这是和mysql的分层有关系,limit offset 只能作用于引擎层返回的结果集。换句话说,引擎层也很无辜,他并不知道这10000个是要扔掉的。以下是mysql分层示意图,可以看到,引擎层和server层,实际是分开的。

直到此时,大概明白了慢的原因。这一阶段,用了一年。

触类旁通

此时工作已经3年了,也开始看一些源码。在看完etcd之后,看了些tidb的源码。无论哪种数据库,其实一条语句的查询,是由逻辑算子组成。

逻辑算子介绍 在写具体的优化规则之前,先简单介绍查询计划里面的一些逻辑算子。

  • DataSource 这个就是数据源,也就是表,select * from t 里面的 t。

  • Selection 选择,例如 select xxx from t where xx = 5 里面的 where 过滤条件。

  • Projection 投影, select c from t 里面的取 c 列是投影操作。

  • Join 连接, select xx from t1, t2 where t1.c = t2.c 就是把 t1 t2 两个表做 Join。

选择,投影,连接(简称 SPJ) 是最基本的算子。其中 Join 有内连接,左外右外连接等多种连接方式。

select b from t1, t2 where t1.c = t2.c and t1.a > 5 变成逻辑查询计划之后,t1 t2 对应的 DataSource,负责将数据捞上来。上面接个 Join 算子,将两个表的结果按 t1.c = t2.c连接,再按 t1.a > 5 做一个 Selection 过滤,最后将 b 列投影。下图是未经优化的表示:


所以说不是mysql不想把limit, offset传递给引擎层,而是因为划分了逻辑算子,所以导致无法直到具体算子包含了多少符合条件的数据。

怎么解决

《高性能MySQL》提到了两种方案

方案一

根据业务实际需求,看能否替换为下一页,上一页的功能,特别在ios, android端,以前那种完全的分页是不常见的。这里是说,把limit, offset,替换为>辅助索引(即搜索条件)id的方式。该id再调用时,需要返回给前端。

方案二

正面刚。这里介绍一个概念:索引覆盖:当辅助索引查询的数据,只有id和辅助索引本身,那么就不必再去查聚簇索引。

思路如下:select xxx,xxx from in (select id from table where second_index = xxx limit 10 offset 10000) 这句话是说,先从条件查询中,查找数据对应的数据库唯一id值,因为主键在辅助索引上就有,所以不用回归到聚簇索引的磁盘去拉取。再通过这些已经被limit出来的10个主键id,去查询聚簇索引。这样只会十次随机io。在业务确实需要用分页的情况下,使用该方案可以大幅度提高性能。通常能满足性能要求。

写在最后

非常感谢我师父在我毕业前三年的指导,给了我很多耐心。在节假日给我布置看书任务,在午休时候考察我学习的进展,通过提问的方式引导我去探索问题,在我从腾讯毕业后,每次见面也给我出了很多主意,传授授业解惑,无一没有做到极致。另外,腾讯的人才培养是我所见闻到最亲切,最用心。

最后,希望大家在人生道路上,都能遇到自己的领路人,祝大家每天都快乐!

更多精彩,关注我吧

本周推荐:

漫画:星球入侵之策略模式

文章好看点这里

分页的limit_分页场景(limit,offset)为什么会慢相关推荐

  1. 分页场景(limit,offset)为什么会慢?

    点击关注公众号,Java干货及时送达 来源 | juejin.im/post/5c4db295e51d4503834d9c43 从一个问题说起 五年前在tx的时候,发现分页场景下,mysql请求速度非 ...

  2. 分页场景(limit, offset)为什么会慢?

    来源 | https://juejin.cn/post/6844903939247177741 从一个问题说起 五年前发现分页场景下,mysql请求速度非常慢.数据量只有10w的情况下,select ...

  3. 给你讲讲五年前在腾讯遇到的,海量数据分页场景(limit,offset)为什么会慢

    链接:http://t.cn/AidABz08 从一个问题说起 五年前在腾讯的时候,发现分页场景下,mysql请求速度非常慢.数据量只有10w的情况下,select xx from 单机大概2,3秒. ...

  4. YII2框架中 where limit offset 函数对分页的使用

    YII2框架中 where limit offset 函数对分页的使用 以前公司用的是TP框架,直接往limit函数里面传两个动态的参数就可以实现分页的效果了,刚换了公司这个公司用的是YII2 框架, ...

  5. sqlanyshere转mysql_【SQL】Oracle和Mysql的分页、重复数据查询(limit、rownum、rowid)

    上周三面试题有两道涉及Oracle的分页查询,没有意外地凉了,现在总结一下. · Mysql mysql的分页可以直接使用关键字limit,句子写起来比较方便. 语法: ① limit m,n -- ...

  6. mysql limit 分页 优化_MYSQL分页limit速度太慢优化方法

    在mysql中limit可以实现快速分页,但是如果数据到了几百万时我们的limit必须优化才能有效的合理的实现分页了,否则可能卡死你的服务器哦. 当一个表数据有几百万的数据的时候成了问题! 如 * f ...

  7. MySQL 跨库分页/ 分表分页/ 跨库分页,为什么这么难?

    来源:https://www.cnblogs.com/yjmyzz/p/12149737.html 当业务数据达到一定量级(比如:mysql单表记录量>1千万)后,通常会考虑"分库分表 ...

  8. MySQL 跨库分页/ 分表分页,为什么这么难?

    以下内容来自公众号逆锋起笔,关注每日干货及时送达 来源:https://www.cnblogs.com/yjmyzz/p/12149737.html 当业务数据达到一定量级(比如:mysql单表记录量 ...

  9. bootstraptable控制分页_bootstrap table分页(前后端两种方式实现)

    bootstrap table分页的两种方式: 前端分页:一次性从数据库查询所有的数据,在前端进行分页(数据量小的时候或者逻辑处理不复杂的话可以使用前端分页) 服务器分页:每次只查询当前页面加载所需要 ...

最新文章

  1. 数据结构: 是什么?
  2. Larbin 安装遇到的问题(fedora)
  3. 5月份 Github 上最热的十个 Python 项目,从Debug工具到AI水军、量化交易系统。
  4. 电脑安装python后开不了机_ubuntu 安装python3.6后,terminal终端打不开问题
  5. java开发一年多少钱_Java
  6. powerquery加载pdf_PowerQuery技巧之自学教程
  7. python读写ini文件的库支持unicode_Python读写unicode文件的方法
  8. 【爬虫剑谱】三卷4章 拾遗篇-关于lxml库下etree模块中Xpath表达式的使用小结
  9. 三、索引优化(5)索引设计指南
  10. jQuery各种选择器总结
  11. ENVI实现归一化建筑物指数(NDBI)实验操作
  12. html播放flv直播源码,使用flv.js实现HTML5播放FLV视频文件
  13. ADB 环境变量配置教学
  14. 【计算几何】求三角形外接圆的周长、面积公式
  15. c语言课程设计作业心得体会,【c语言课程设计心得体会】 c语言课程设计报告总结...
  16. 【python初学者日记】selenium初体验——“秒杀商品”、“清空购物车”技能养成记(一)
  17. 自学Linux命令10
  18. Java Swing窗体JFrame之设置窗体图标
  19. 那些git中常见的面试题及知识点
  20. 【自然语言处理】文本相似度算法:TF-IDF与BM25

热门文章

  1. 依据地图上的经纬度坐标计算某个点到多边形各边的距离
  2. 在Linux下编写C程序,怎么检查程序是否有内存泄漏?
  3. [Linux] VIM 代码折叠
  4. VC6重载字体对话框,去除颜色下拉框
  5. [react-router] react的路由和普通路由有什么区别?
  6. [react] React15和16别支持IE几以上?
  7. React开发(174):ant design按钮确认删除
  8. 重学java基础第七课:什么是计算机
  9. 前端学习(3068):vue+element今日头条管理-日期处理
  10. [css] 请写出:link、:visited、:hover、:active的执行顺序