背景

在程序设计中,我们往往需要确保数据的唯一性,比如在常见的注册模块,我们需要确保一个手机号只能注册为一个账号。这种情况下,我们的程序往往是第一道关卡,用户来注册之前,首先判断这个手机号是否已经注册,如果已经注册则返回错误信息,或直接去登录。但是我们不能确保同时有两个人使用同一个手机号注册到我们的系统中,因此这里就需要在更深的层次去确保手机号在系统的唯一性了。不同存储方案,解决方式不一样。对于常用的MySQL数据库,我们可以使用唯一索引的方式来作为我们的最后一道防线。

但是最近在使用数据库的唯一索引时,发现一个比较奇怪的现象。MySQL数据库,使用InnoDB存储引擎,创建了唯一索引时,在insert操作时,如果唯一索引上的字段有为NULL的情况,则可以无限插入。这有点匪夷所思,但是现实就是这么一个情况。现在就来具体分析这样的一个案例,来看看底层对于唯一索引是怎么设计的,来规避在数据库设计上犯错和踩坑。

案例

假设现在有一个用于保存用户信息的数据表user,是使用email注册的,当前使用email作为唯一索引,同时这一基本规则也被其他依赖系统作为设计数据模型的设计基础。假设现在设计这样一个user表:

CREATE TABLE `user` (`id` bigint(20) unsigned NOT NULL AUTO_INCREMENT COMMENT 'primary key',`email` varchar(32) NOT NULL DEFAULT '' COMMENT 'email',`name` varchar(11) DEFAULT '' COMMENT 'name',`age` int(11) DEFAULT NULL COMMENT 'age',PRIMARY KEY (`id`),UNIQUE KEY `uk-email` (`email`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8;

1@user.com来注册,执行insert语句,执行成功

INSERT INTO user (email,name,age) VALUES ('1@user.com','h1',18);

1@user.com再来注册,则再次执行,则报错。成功规避了用户多次创建导致系统产生脏数据问题。

Duplicate entry '1@user.com' for key 'uk-email'

从这里看,user表的设计是符合业务要求的,并没有出现同一个email出现多行的情况。随着业务发展,单单email注册的模式并不适合移动互联网时代,所以现在的要求在原有基础上增加了手机号的字段,并要求手机号也是唯一的。于是添加phone字段,并将原有唯一索引删除,为email和phone设置新的唯一索引。

ALTER TABLE `user` ADD COLUMN `phone` varchar(11) default NULL AFTER `age`;DROP INDEX `uk-email` ON `user`;ALTER TABLE `user` ADD UNIQUE KEY `uk-email-phone` (`email`,`phone`);

假设用户1再来用同样的email注册,可以注册成功:

INSERT INTO user (email,name,age,phone) VALUES (‘1@user.com’,‘h1’,18,NULL);

查询数据库数据,得到以下结果:

有两个email为1@user.com的记录,他们的phone都是NULL,这怎么可能存在?!难道是MySQL出问题了?!不可能,我们再试另外一个数据

INSERT INTO user (email,name,age,phone) VALUES ('2@user.com','h2',18,'18812345678');

连续执行两次,第一次执行成功,第二次报错:

Duplicate entry ‘2@user.com-18812345678’ for key ‘uk-email-phone’

查询user结果集,得到

从结果看这样MySQL的唯一索引也算是正常的啊,那这到底是怎么一回事呢?

原因探寻

业务中希望建立的唯一索引是email + phone的组合,但是由于phone一开始是没有数据的,所以新建字段时默认允许为NULL来兼容老数据。如果程序没有控制好,数据操作直接打到数据库,就产生了两条email为“1@user.com”且phone为NULL的数据,那么就会发生这种数据错乱的情况。

我从 MySQL 5.7官方文档 中找到了这个:

Unique Indexes

A UNIQUE index creates a constraint such that all values in the index must be distinct. An error occurs if you try to add a new row with a key value that matches an existing row. If you specify a prefix value for a column in a UNIQUE index, the column values must be unique within the prefix length. A UNIQUE index permits multiple NULL values for columns that can contain NULL.

官方的文档中明确说明在唯一索引中是允许存在多行值为NULL的数据存在的。

当然我们会认为这是MySQL的一个bug,其实早有人这么认为了,并给MySQL提出了这个问题https://bugs.mysql.com/bug.php?id=8173。但是MySQL的开发者并不认为这是一个bug,而是本身的一种设计。额,这么说,好像也说得过去。那这里就有一个问题了,我们知道索引是使用B+树来维护的,但是对于这种非唯一索引是怎么维护的?

带着这个问题,我觉得有两种可能:

(1)唯一索引时另外一种数据类型,正好把有值为NULL的字段过滤掉了,无需特殊处理。

(2)还是用的B+树索引,但是对于NULL的索引特殊处理了。

于是我对email=2@user.com且phone= 18812345678的数据执行了Explain执行计划

explain select * from user where `email` = '2@user.com' and `phone` = '18812345678';


这个查询正好用到了唯一索引uk-email-phone,索引长度是134。

对email=1@user.com且phone为NULL的执行类似Explain执行计划

explain select * from user where `email` = '1@user.com' and `phone` is   NULL;

对比上面两次不同数据的explain执行结果,可以看到其实都用了uk-email-phone的唯一索引,不同的是第一个type是const(通过一次索引就可以找到,用于primary key或unique index),第二个type是ref(非唯一性索引扫描),且rows为2。所以猜测这里极有可能是对NULL进行的特殊处理,唯一索引树还是用的和非NULL一样的唯一索引树。

源码分析

上面利用explain,测试结果是符合自己的猜测行为而已。也许只有源码中才能比较好的知道答案,基于此,在github上找到MySQL相关的源码(在此感谢DBA同学在唯一索引源码分析上的指点)。在这段源码https://github.com/mysql/mysql-server/blob/8e797a5d6eb3a87f16498edcb7261a75897babae/storage/innobase/row/row0ins.cc中,有一个方法 row_ins_scan_sec_index_for_duplicate(),这里会扫描唯一非聚簇索引树,来确定是否会发生唯一性的冲突。源码内有一段注释

/* If the secondary index is unique, but one of the fields in then_unique first fields is NULL, a unique key violation cannot occur,since we define NULL != NULL in this case */

在继续往下有一段这样的逻辑

  cmp = cmp_dtuple_rec(entry, rec, index, offsets);if (cmp == 0 && !index->allow_duplicates) {if (row_ins_dupl_error_with_rec(rec, entry, index, offsets)) {err = DB_DUPLICATE_KEY;thr_get_trx(thr)->error_info = index;/* If the duplicate is on hidden FTS_DOC_ID,state so in the error log */if (index == index->table->fts_doc_id_index &&DICT_TF2_FLAG_IS_SET(index->table, DICT_TF2_FTS_HAS_DOC_ID)) {ib::error(ER_IB_MSG_958) << "Duplicate FTS_DOC_ID"" value on table "<< index->table->name;}goto end_scan;}} else {ut_a(cmp < 0 || index->allow_duplicates);goto end_scan;}

跳转到row_ins_dupl_error_with_rec()方法中有一段这样的逻辑

/* In a unique secondary index we allow equal key values if theycontain SQL NULLs */if (!index->is_clustered() && !index->nulls_equal) {for (i = 0; i < n_unique; i++) {if (dfield_is_null(dtuple_get_nth_field(entry, i))) {return (FALSE);}}}

在唯一索引中有字段为NULL的情况下,返回FALSE,代码中就没有抛出DB_DUPLICATE_KEY的异常了。所以从源码来看,这里实现了唯一索引允许为NULL的情况了,而且可以知道,这个唯一索引树和其他的二级索引基本上是没什么区别的。这也是前面explain时及时我们查询非唯一索引中另一个字段为空的记录,也还是用到了同样的索引和相同的索引长度。

反观来看,如果是我们在未知实现的情况下,要我们来设计,怎么实现允许有字段为NULL的唯一索引呢?是否还有比现有MySQL更好的方式来实现?

结论

所以其实MySQL在唯一索引中允许存在值为NULL的字段。NULL值在MySQL可以代表是任意值,并且在有字段值为NULL时,不会参与校验这个组合的唯一索引,所以可能插入业务上不允许重复的数据,导致脏数据。

因此在创建属于唯一索引的列时,最好指定字段值不能为空,在已有值为NULL的情况下,创建的字段不允许为空,且默认值为空字符。如果已经创建了默认值为NULL的字段,则先将其update为空字符,然后再修改为NOT NULL DEFAULT ‘’。如上述情况建表语句改为

CREATE TABLE `user` (`id` bigint(20) unsigned NOT NULL AUTO_INCREMENT COMMENT 'primary key',`email` varchar(32) NOT NULL DEFAULT '' COMMENT 'email',`name` varchar(11) DEFAULT '' COMMENT 'name',`age` int(11) DEFAULT NULL COMMENT 'age',`phone` varchar(11) NOT NULL DEFAULT '',PRIMARY KEY (`id`),UNIQUE KEY `uk-email-phone` (`email`,`phone`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8;

并非所有数据库都是这样,SQL Server 2005及更老的版本,只允许有一个NULL值出现。从https://sqlite.org/faq.html#q26 了解到ANSI SQL-92标准:

A unique constraint is satisfied if and only if no two rows in a table have the same non-null values in the unique columns.(如果且仅当表中没有两行在唯一列中具有相同的非空值时,才满足唯一约束。)

除了MySQL之外,sqlLite、PostgreSQL、Oracle和FireBird也是允许唯一索引上存在多行为NULL。

别踩坑!使用MySQL唯一索引请注意相关推荐

  1. 【踩坑】MySQL时间索引失效

    项目中查时间数据段数据时,发现查询时间很长,RDS查了一下执行计划: 各列解析说明: id:表示执行的顺序,id的值相同时,执行顺序是从上到下,id的值不同时,id的值越大,优先级越高,越先执行 se ...

  2. Mysql唯一索引 唯一约束

    Mysql唯一索引 唯一约束 唯一索引作为mysql众多索引常用的一种,在一次业务代码编写中详细了解了下此索引在此记载,如果错误地方还望同学们斧正 Mysql唯一索引 唯一约束 唯一索引的的作用 唯一 ...

  3. mysql 唯一索引出现重复数据_mysql使用唯一索引避免插入重复数据

    使用MySQL 索引防止一个表中的一列或者多列产生重复值 一:介绍MYSQL唯一索引 如果要强烈使一列或多列具有唯一性,通常使用PRIMARY KEY约束. 但是,每个表只能有一个主键. 因此,如果使 ...

  4. Mysql唯一索引和普通索引的区别,

    文章目录 Mysql唯一索引和普通索引的区别,那种速度快一点,原因是啥 理由说明: 结论: 1 普通索引 2 唯一索引 注意:唯一索引和普通索引使用的结构都是B-tree,执行时间复杂度都是O(log ...

  5. 在mysql中unique唯一索引的作用_MySQL_MySQL中的唯一索引的简单学习教程,mysql 唯一索引UNIQUE一般用于不 - phpStudy...

    MySQL中的唯一索引的简单学习教程 mysql 唯一索引UNIQUE一般用于不重复数据字段了我们经常会在数据表中的id设置为唯一索引UNIQUE,下面我来介绍如何在mysql中使用唯一索引UNIQU ...

  6. 聊聊mysql唯一索引的哪些坑,为什么还是产生重复数据?

    前言 前段时间我踩过一个坑:在mysql8的一张innodb引擎的表中,加了唯一索引,但最后发现数据竟然还是重复了. 到底怎么回事呢? 本文通过一次踩坑经历,聊聊唯一索引,一些有意思的知识点. 1.还 ...

  7. 原来我一直在踩雷区,MySQL 使用索引的正确方式原来是这样的

    MySQL 合理使用索引 索引可以说是数据库中的一个大心脏了,如果说一个数据库少了索引,那么数据库本身存在的意义就不大了,和普通的文件没什么两样.所以说一个好的索引对数据库系统尤其重要,今天来说说 M ...

  8. mysql 唯一索引_面试官:谈谈你对mysql索引的认识?

    引言 大家好,我渣渣烟.我曾经写过一篇<面试官:讲讲mysql表设计要注意啥>,当时写完后,似乎效果还行! 于是呢,决定再来一个mysql的数据库专题,这篇我们就来谈谈关于索引方面的mys ...

  9. MySQL 唯一索引,并发插入导致死锁

    一日志 ------------------------ LATEST DETECTED DEADLOCK ------------------------ 2020-07-27 16:28:53 0 ...

最新文章

  1. php学习之------[流程控制]
  2. MonkeyRunner 实现自动点击截屏后与本地图库进行对比输出
  3. sklearn机器学习常用过程总结
  4. 池化层在全连接层之间吗,了解最大池化层之后的全连接层的尺寸
  5. 打印文件前,千万记得把弹窗叉掉!!!
  6. git 使用writer_GitHub - Vpredictor/WriterFly: [QT/C++] 写作天下,为作家创造世界而生,执云作笔,诉尽平生意。...
  7. code第一部分数组:第十七题 爬楼梯问题
  8. modbus通讯协议编程实例_三菱PLC CC-LINK通讯编程实例分享,看完你就会了
  9. pl/sql developer 快捷操作: 显示不可见字符 显示历史sql语句 拷贝整个sql窗口的语句至新的sql窗口...
  10. 二类高层建筑中的电子计算机,高层建筑结构计算机计算原理及结果简析
  11. 个人信息保护合规建设行业最佳指南
  12. 【第三方互联】6、分享至微信(WeChat)
  13. http://localhost:8080/login的密码和账号的问题
  14. 大数据导论2之大数据与云计算、物联网、人工智能
  15. 正弦定理c语言函数,正弦定理和余弦定理的所有公式
  16. 【实践案例分享】58的商业DMP数据管理平台的架构与实践
  17. 基于Go语言Gin+Xorm+Layui实现RBAC权限管理系统
  18. Jav安全框架Shiro学习总结(1)
  19. MT40A1G16KH-062E AIT内存MT40A1G16KH-062E AUT
  20. 移动端SEO该如何做?--甲由科技

热门文章

  1. python计算三角形面积代码_python计算三角形面积详细代码演示
  2. 运行SQL文件,出现[ERR] 1046 - No database selected
  3. Intellij IDEA中炫酷的插件
  4. Coordinate
  5. python保存图片到指定路径_用 Python 识别图片中的文字
  6. 谈谈绘画为什么要重视画人物肖像?
  7. 用PyTorch对Leela Zero进行神经网络训练
  8. 翻译:在Ubuntu 14.04上安装FTP服务器的方法
  9. 强大好用,人人可用!FineBI v6.0公测全面开启
  10. 化合物相似性搜索_使用MolAICal进行配体相似性比较或搜索的操作教程