本文出处:http://www.cnblogs.com/wy123/p/6008477.html

  关于统计信息对数据行数做预估,之前写过对非相关列(单独或者单独的索引列)进行预估时候的算法,参考这里。
  今天来写一下统计信息对于复合索引在预估时候的计算方法和潜在问题。
  本文原形来自于是个实际业务问题,某SQL在利用一个符合索引做查询的时候,发现始终会出现预估误差较大的情况,
  而改变复合索引的列顺序,这个预估行数的误差会发生变化,
  也就是说,Create index idx_index1 ON TableName(col1,col2)与Create index idx_index2 on TableName(col2,col1)
  用完全一样的的查询条件做查询,两个索引的执行计划对其预估的行数是不一样的
  究其原因在哪里呢?

  

  先造一个测试环境:

CREATE TABLE TestStatistics
(COL1 INT IDENTITY(1,1)  ,COL2 INT                ,COL3 DATETIME           ,COL4 VARCHAR(50)
)
GOINSERT INTO TestStatistics VALUES (RAND()*10,CAST(GETDATE()-RAND()*300 AS date),NEWID())
GO 1000000

问题重现

首先看一个非常有意思的问题,
在同一张表上,
先这么建一个索引:CREATE INDEX IDX_COL2_COL3 ON TestStatistics(COL2,COL3)
执行一个查询,预估为4127.86行
然后DROP掉上面的索引,继续创建一个索引:CREATE INDEX IDX_COL3_COL2 ON TestStatistics(COL3,COL2)
注意COL2和COL3的顺序不一致
继续执行上面的查询(查询条件不变,数据不变,仅仅是索引列顺序发生了变化),这一次预估为2414.91行

查询条件一样,数据也一样,为什么改变复合索引列顺序会影响到执行计划对数据行的预估呢?

首先来看第一个索引时候的预估算法:

  这个查询他预估为4127.86行,如下图

  说起来预估,就离不开统计信息,首先来看IDX_COL2_COL3这个索引的统计信息,
  我们知道,对于复合索引,统计信息中只有前导列的统计数据,也就是说IDX_COL3_COL2这个索引只有COL2这个列的统计信息,如下截图
  对于COL2=2的统计信息,统计为100336行,我们记住这个数字

  统计信息的另外一个特点就是在会在查询列(非索引列)上自动创建统计信息,如下截图
  查询执行过程中,自动创建了一个名字为:_WA_Sys_00000003_24E8431A的统计信息
  这个统计信息就是对COL3列的统计,可以发现在大于等于2012-10-20之后的统计行数

  在SQL Server 2012中,对数据行的预估计算方式是各个字段的选择性的乘积,
  假如Pn代表不同字段的密度,那么预估行数的计算方法就是: 预估行数=p0*p1*p2*p3……*RowCount
  可以利用这个算法,计算目前数据下,预估出来的结果:4217.86,跟执行计划预估是一致的,非常完美!

   当删除了IDX_COL2_COL3重建建立顺序为COL3+COL2的索引的时候,预估如下

   与上面同样的查询条件,预估为2414.91行

  

  依据上面的分析步骤,首先来分析索引列上的统计信息,如下截图为大于等于2016-10-20之后的预估行数

同理,本次查询也会自动建立COL2列上的统计信息(IDX_COL2_COL3索引被删除),观察这个统计信息对COL2=2的预估为83711.36行

   

   同样我们利用上述公式,来计算预估的行数:2414.9035行,也非常完美地吻合和执行计划预估的结果

   

  至此,应该很清楚一开始的问题了,就是为什么复合索引列顺序不一致,在查询的时候导致预估也不一致的原因。
  最根本的原因有就是:
  符合索引上只有前导列的统计信息,查询引擎会根据需要自动创建非前导列的统计信息,
  但是,非常关键一点,如果细心的话,你会发现查询引擎自动创建的统计信息的取样行数都不是100%取样的,这一点非常关键
  正是因为非前导列取样有一定的误差,导致在预估算法的时候,也即 预估行数=p0*p1*p2*p3……*RowCount的时候,密度值是不一样的
  也即在创建IDX_COL2_COL3的时候,统计出来的COL2密度为P1_1,COL3密度为P2_1
  创建IDX_COL3_COL2的时候,统计出来的COL2密度为P1_2,COL3密度为P2_2,因为P1_1<>P1_2,P2_1<>P2_2
  因此,计算出的结果就是P1_1*P2_1<>P2_1*P2_2,原理很简单,希望看官能明白。

  

  照这么计算,对于两个顺序不同的统计信息,如果P1_1=P2_1并且P2_1=P2_2,那么乘积就是一样的,预估行数也就是一样的,那么是不是呢?

  

  对于不同顺序的两个索引,先看COL2,COL3顺序的索引
  在查询一次之后(建立了统计信息),执行一个百分之百取样(WITH FULLSCAN)的统计信息更新
  重新来看其预估行数,这一次预估为:2894.49

  

  删除COL2,COL3顺序的索引,建立COL3,COL2为顺序的索引
  在查询一次之后(建立了统计信息),执行一个百分之百取样(WITH FULLSCAN)的统计信息更新
  重新来看其预估行数,这一次预估为:同样为2894.49,是吻合上述算法

总结:

  文本简单演示了执行计划利用统计信息预估的算法和原理,以及在计算预估行数时候可能受到的干扰因素,
  这就要求我们在建立索引的时候,不仅仅是说我建一个复合索引就完事了,也要注意其索引列的顺序对执行计划预估的影响,
  更重要的是,要注意查询引擎自动生成的统计信息对预估的影响程度。

  抛开统计信息谈索引的,都是耍流氓。抛开统计信息取样百分比谈统计信息的,也是耍流氓。

  

  引申出来另外一个问题:维护统计信息的时候,能只更新索引列的统计信息,忽略非索引列的统计信息吗?

本人技术能力还很菜,写的不对的地方还请各位看官指出,谢谢。

SQL Server 执行计划利用统计信息对数据行的预估原理二(为什么复合索引列顺序会影响到执行计划对数据行的预估)...相关推荐

  1. execution 排除_使用SQL Server 2016 Live Execution统计信息对SQL查询性能进行故障排除

    execution 排除 SQL Server Management Studio a graphical interactive that allows you to interact with t ...

  2. SQL Server创建复合索引时,复合索引列顺序对查询的性能影响

    SQL Server创建复合索引时,复合索引列顺序对查询的性能影响 原文:SQL Server创建复合索引时,复合索引列顺序对查询的性能影响 说说复合索引 写索引的博客太多了,一直不想动手写,有一下两 ...

  3. SQL Server 数据库表的统计信息的更新

    最近在调整基础信息数据时,新增了几个客户类型,意想不到的事情发生了,在使用新增的客户类型作为 查询条件查询报表时,居然出现了超时的现象,但是用其他以前的客户类型查询就没有问题,用一个以前增加的 客户类 ...

  4. Sql Server之旅——第八站 看公司这些DBA们设计的这些复合索引

    这一篇再说下索引的最后一个主题,索引覆盖,当然学习比较好的捷径是看看那些大师们设计的索引,看从中能提取些什么营养的东西,下面我们看看数据库中一个核心的Orders表. 一:查看表的架构 1. 先查看这 ...

  5. mysql中的merge into,SQL Server 2008中利用merge into关键实现insert/update自动匹配(类似于MySQL中的For Update关键字)...

    SQL Server 2008中利用merge into关键实现insert/update自动匹配(类似于MySQL中的For Update关键字) 语法请参考: 按照语法编写语句 DECLARE @ ...

  6. Windows 不能在 本地计算机 启动 SQL Server (MSSQLSERVER)。有关更多信息,查阅系统事件日志。如果这是非 Microsoft 服务,请与服务厂商联系,并参考特定服务错误代

    问题: 前几天生产工控机上启动SQL Server 的时候出现"Windows 不能在 本地计算机 启动 SQL Server (MSSQLSERVER).有关更多信息,查阅系统事件日志.如 ...

  7. oracle更新统计信息执行计划,为准确生成执行计划更新统计信息-analyze与dbms_stats...

    如果我们想让CBO利用合理利用数据的统计信息,正确判断执行任何SQL查询时的最快途径,需要及时的使用analyze命令或者dbms_stats重新统计数据的统计信息. 例如索引跳跃式扫描(INDEX ...

  8. sql server实例内存使用统计

    SQL SERVER内存按存放数据的类型,大概可以分为三类: 1.buffer pool,存放数据页面的缓冲区,sql server数据都是存放在一个个8K的页面里,当用户需要使用这个页面上的数据时, ...

  9. JSP+Tomcat+SQL Server 2000+JDBC实现合同信息管理系统

    导读:随着信息科学技术的飞速发展,人们逐渐意识到对信息管理软件的运用可以使日常工作更加方便.快捷和高效.论文详细论述了公司合同管理系统的开发设计过程.软件采用JSP开发技术,Tomcat作容器, SQ ...

最新文章

  1. 数据泄露频繁,背后原因之--数据的利益
  2. 太拼了:谷歌第一编程语言小白也能学会!
  3. css 填坑常用代码分享
  4. 不懂代码,他怎么开发了20多个政务应用?
  5. 不可多得的Javascript(AJAX)开发工具 - Aptana
  6. 倒水问题(Fill,UVA 10603) lrj白书 p202
  7. python意外缩进引发逻辑错误_如何编写 Python 程序
  8. spectral hashing--谱哈希源码解析
  9. bootstrap 垂直居中 布局_CSS3 flex 布局必须要掌握的知识点
  10. 数据行业工作3年,我靠这7个能力,成为领导青睐的高级数据分析师
  11. 简单干净的C#方法设计案例:SFCUI.AjaxValue()之三
  12. java队列类_用Java编写一个队列类
  13. iPhone越狱后,常见路径大全
  14. 如何写软件概要设计?
  15. #91;#12304;#26469;#20998;#26399;#23458;#26381;#30005;#35805;#12305;#93;
  16. foo:function(){}与function foo(){}还有foo=function()三者间的区别
  17. python控制软件自动化测试,资讯详情-用python来使用Airtest 自动化工具-柠檬班-自动化测试-软件测试培训-自学官网...
  18. the crew 服务器维护,飙酷车神 the crew入门指南 新手必看
  19. 淘宝店铺层级每个月更新么?如何提高淘宝店铺层级?
  20. 页面打印插件 jquery.jqprint.js 插件使用实例

热门文章

  1. ug后处理如何加密_UG在NX加工中如何添加后处理文件?
  2. 材料二电子计算机及网络技术有限公司,高等职业教育计算机网络技术专业(三二分段)备案材料.doc...
  3. ncverilog脚本_NC-Verilog仿真详解
  4. cx oracle dpi 1002,cx_Oracle连接数据库总结
  5. matlab里dcgain,制系统的时域分析
  6. 1113: 递归调用的次数统计(函数专题)
  7. 内网击穿之 HTTP 穿透:网站没上线?如何让全世界的人都可以访问你本地的网站?
  8. hadooppythonsql_python - hadoop,mapreduce demo
  9. 华为畅享max有没有人脸识别_华为畅享7s有人脸识别吗 让我来告诉你
  10. 0 179 90 150matlab,matlab成功的函数拟合方法_更新中