oracle procedures批量删除带索引条件数据很慢_见微知著，数据库应用设计优化浅谈...

作者简介

刘晨

中航信研发中心运维经理

前言：众所周知对于 OLTP 的交易系统最重要的操作就是数据库的CRUD，数据库层面或者SQL优化的程度，对于整个系统的并发处理能力起到至关重要的作用。

很多朋友都会碰到这样的问题，系统运行初期，数据库层面运转非常稳定，SQL处理能力也很强。当业务发展一定阶段，SQL语句性能变差，导致应用并发处理能力下降，究其原因，可能是资源的问题、环境的问题、还可能是数据库设计的问题。

今天我们选择某个核心交易系统历史过期数据删除的逻辑优化案例。通过一些介绍了解业务发展的不同阶段，旧数据的删除逻辑是如何演进的，以及不同演进过程当中有哪些设计优化的经验。我分为以下四个部分做分享。

一、案例背景

首先我们看一下需求背景，这是一套核心的OLTP的交易系统，这套应用背后有二十几张关联的主子表，表中数据过期数据要及时清理。

开发人员用java写了删除的程序，我们希望每天六点业务高峰期之前完成数据清理工作。

二、问题描述

接下来我们看下问题。随着业务的推广，相应数据删除执行时间逐渐变长，从最开始只需要三十分钟，逐渐增加到两小时、五小时、甚至十几个小时。

经过分析有一张终极情况下5000万记录的子表B，删除效率比较低，属于这个问题的主要矛盾。终极情况下主表A会有2000万数据，存储七天之前到未来两天的数据，子表B关联主表的ID。子表B每天删除七百万，对于主表A来说需要从子表找到需要删除的记录。

同时因为主表A下面有一系列的子表，我们最开始设计是按串型的方式逐一删除每一张子表，再删除主表。

三、细察深剖

我们会从几个阶段来看看针对数据删除的逻辑我们是如何演进的，如何采用不同的方案进行优化。

首先阶段一业务投入初期，业务量非常有限，开发人员使用SQL通过A表筛选出来七天之前的ID记录，然后和子表B做一个关联删除B表中的数据，同时有rownum作为条件，限制一次删除交易的数据量，避免大事务的产生。

因为子查询当中只存在十天的数据，因此采用了全表扫描的执行计划，根据之前的数据量预估推测，它需要执行七百次的A表全表扫描。这个阶段来说业务量有限，数据库的配置比较高，因此执行时间，可以接受。

系统投产初期，数据量很有限，这个阶段，其实任何满足删除逻辑需求的SQL都是可以接受的，但是它的隐患非常明显，因为我们对一张大表执行了全表扫描，执行时间一定会随着数据量的增加而变长。

到了阶段二，业务量有所增加，这时候SQL执行时间也变长了，为了提升效率我们做了一些优化。第一个思路就是能不能少做一些事情，创建一张中间表C，存储的是在主表A中要删除数据的ID值，通过中间表C再和子表B做关联，它和阶段1的差别是什么？阶段1是做700次2000万数据的全表扫描，现在只需要做700次200万数据的全表扫描，并将删除程序改为并行执行，能同时删除多张子表。

相比阶段一，它把对于子表的删除由串型改成了并行，同时全表扫描的数据量有所下降，性能会有一定的提升，但是隐患还在，因为还是对两百万的表进行了全表扫描，执行时间还是随着业务的推广逐渐增加。

到了阶段三，这个时候业务发展比较迅猛，业务量接近终级的状态了，这时候夜维执行时间超出了需求，现在的优化目标就是能不能避免子表全表扫描的操作，我们通过下面四步操作来看一下，首先在创建的中间表C中增加pkid字段，即将原先B表每次批量删除1万条的限制，推至内层循环，以让C表使用索引，避免全表扫描。例如，第一次子查询pkid的字段是1到10001，接下来就是10001到20001。

根据业务的评估，C表中一个ID，对应子表B两到三条。虽然和之前相比一次删除的数据量增加了，但是量级上基本可控。

这个阶段我们的方案通过pkid的索引避免子查询的全表扫描，虽然一次删除B表的数据多了，但相应的执行次数减少了。如果按照我们最初的分析，这种方案应该是比较完美了，可以解决我们之前的问题。

但是，现实和理想是有差距的。我们在上线当晚就报错了，从日志当中看到它抛了一个ORA-01555的错误。这是一个非常经典的错误号。原因就是在做数据检索的时候，有数据变化，我们需要从UNDO检索数据，做一致性读，如果SQL执行空间比较长，UNDO中的镜像就可能被其他事务覆盖，这时候就会抛出ORA-01555的错误。

对于C表它采用了索引范围扫描，用到了索引，但是对于子表B执行了全表扫描，正是因为全表扫描才导致SQL执行时间非常长，才让程序出现了错误。

现在问题来了，是不是因为子查询一万数据太多了？我们尝试将子查询缩小到五千、两千五以及十一个数据，它依然没有改变。偶然的是，我们尝试 1910001到1920001的参数值时，发现执行计划变了，对两表进行了索引扫描，以及嵌套循环连接，这才是我们真正需要的执行计划。

现在问题又来了，这是为什么？通过分析，pkid区间1-10001对应B表a_id的值比较无序，而且间隔较远，pkid区间1910001-1920001对应B表a_id的值比较有序，间隔较近，由此，我们联想到Oracle中Clustering Factor聚簇因子这个概念。他表示的是索引键值的排列顺序，和对应表中数据排列顺序的相近程度。

通过一个索引扫描一张表时需要访问的表的数据块的数量。反映了索引范围扫描可能带来的对整个表访问过程的IO开销情况。如果值越小(接近表的数据块数量)，说明表中数据是有序的，同一个索引叶子结点上相邻的索引键值，对应的表中记录可能位于相同的数据块上，(表是按照索引字段的顺序存储)，相应根据索引，回表检索数据，就会消耗更少的物理IO。

如果值越大(接近表的行数)，说明表中数据是无序的，同一个索引叶子节点上相邻的索引键值，对应的表中记录就可能位于不同的数据块上，(表不是按照索引字段的顺序存储)，相应根据索引，回表检索数据，就会消耗更多的物理IO。

我们通过图示，可以更加形象的理解，这张图是聚簇因子比较小的示意图，我们看一个索引叶子节点上，索引键值对应到表的记录，可能位于相同的数据块，组织有序。

这张图是聚簇因子比较大的示意图，同一个索引叶子结点上，相邻的索引键值，对应表中的记录，可能位于不同的恶数据块，组织无序。相同一次检索，回表需要消耗更多的物理IO。

我们再用图示，看下pkid在1-10001和1910001-1920001两个区间，可能的情况，1-10001对应B表待删除a_id索引，可能位于不同的数据块上，1910001-1920001对应B表待删除a_id索引，可能位于有限个相邻的数据块，因此前者检索B表的时候，有可能全表扫描的成本，就要低于索引范围扫描，而后者索引范围扫描的成本，低于全表扫描，所以pkid区间不同，导致B表扫描成本的不同，因此选择了不同的执行计划。

我们知道了原因，应该如何改造？很明显，目标是让B表一次删除的a_id尽量接近。原先C表构造，只是根据时间，将符合条件的A表记录，随机插入C表，现在我们加上order by id，保证插入C表的时候，是按照id字段排序存储，相当于按序构造了表C。

从优化效果来看，子表B在优化之前都需要两个小时到三个小时的删除时间，优化之后，基本上五十分钟就可以完成数据的删除工作。

子表B是属于优化主要矛盾，解决主要矛盾之后，相应夜维的总体执行时间也有所下降，原先需要四个小时以上的时间完成清理，现在仅需要两个半小时时间就可以完成所有数据清的理工作。

上面是我们对数据删除的演进过程进行了说明。

四、总结回顾

最后我们简单总结回顾一下问题。首先我们投产初期，只要SQL语句符合需求，在执行时间上就可以。之后全表扫描的隐患就会逐渐暴露出来，我们通过将串行改为并行，同时增加了pkid字段，旨在使用索引。

但是，实际过程中pkid的数据分布变成了乱序的，进而导致使用索引扫描的成本值非常高，无法使用索引，还出现了ORA-01556的报错。明确了原因之后解决方案也很简单。我们通过指定排序构造中间表，来降低索引访问的成本。

除了这些优化操作外，或许可能有其他的方法，比如使用引用分区特性、删除外键约束并发执行，其实对于一些优化的工作，方法可能不止一种，殊途同归，选择你最熟悉、最易操作的执行就好，毕竟技术是为业务服务的。

通过案例我们也做了一些思考。

第一个就是好架构不是设计出来的，而是演进来的，对于数据库应用的逻辑一样如此，对于不同的阶段，可能会有不同的逻辑调整。

第二点，在优化过程中，首先要抓住主要矛盾，不能眉毛胡子一把抓，要明确主要的矛盾，作为首要的目标去解决。

第三个，就是无论对于开发人员还是架构师来说，我们不能把数据库当做一个黑盒，我们理解越全面、越深入，越可以理解和发现问题。

最后一个就是对于一些性能隐患，是可以提前避免的，例如大表的全表扫描，它的执行时间，一定会随着数据量的增加而增长。

咱们这次会议的主题，是自动化运维、智能运维。对于这些隐患，现在业界也有了像SQL审核工具这种产品，无论是开源的，还是商业的，通过自动化的方式，提前预警。

我们的团队，也在做这方面的探索，正在自研我们自己的数据库智能审核分析平台Sherlock，希望他可以像神探夏洛克一样，帮助我们找出数据库开发的隐患，辅助开发人员、DBA，进行数据库开发的工作，践行DevOps，希望未来有机会，分享出来这方面的工作。以上就是我今天的分享。感谢各位。

AIOps，DevOps？

运维行业的风向标

想知道

2019 运维行业必关注的行业趋势？

4.12-13，我们在深圳等您

点击阅读原文，了解 GOPS 2019 · 深圳站更多精彩