原标题:你知道什么是 MySQL 的模糊查询?

作者 | luanhz

责编 | 郭芮

本文对MySQL中几种常用的模糊搜索方式进行了介绍,包括LIKE通配符、RegExp正则匹配、内置字符串函数以及全文索引,最后给出了性能对比。

引言

MySQL根据不同的应用场景,支持的模糊搜索方式有多种,例如应用最广泛的可能是Like匹配和RegExp正则匹配,二者虽然用法和原理都很相似,但实际上匹配原则却不尽相同,其中Like要求模式串与整个目标字段完全匹配才检索该记录,而RegExp则是要求目标字段包含模式串即可。

对于简单的判断模式串是否存在类型的模糊搜索,应用MySQL内置函数即可实现,例如Instr、Locate、Position等。

当然,提到MySQL查询性能就不得不提到索引,对于字段模糊查询需求,我们也可以考虑添加全文索引(Fulltext)。

注:本文所用MySQL版本8.0.19,可视化工具Navicat Primium。

4种模糊查询

为了便于描述和测试不同模糊查询方式结果,首先给出一个简单的测试用数据表tests如下:

其中,tests表仅含有一个名为words的字段,并对该字段添加全文索引。表中共有6条记录。

Like

Like算作MySQL中的谓词,其应用与is、=、>和

例如,在如上表中查找所有以"hello"开头的记录,则其SQL语句为:

1SELECT words FROM tests WHERE words LIKE 'hello%';

查询结果:

如果想查找所有以"hello"开头且至少含有6个字符的记录,则可简单修改SQL语句如下:

1SELECT words FROM tests WHERE words LIKE 'hello_%';

查询结果:

另外:当在Like模式字段中,若不包含任何"_"和"%"通配符,则等价于"=",表示精确匹配,例如查询语句……Like "hello",则仅返回hello一条记录;还可在Like前加限定词Not,表示结果取反。

RegExp

正则表达式具有庞大而丰富的语法,MySQL语法中支持绝大部分正则表达式功能,几乎可以满足所有需求。本文不过多展开正则表达式相关介绍,仅在Like的基础上,简单介绍其与Like模糊搜索方式的区别。

如前所述,Like匹配原则是要求模式串与整个目标字段匹配时,才返回该条记录;而RegExp中则是当目标字段包含模式串时即返回该条记录。例如如下SQL语句将返回所有包含"hello"的记录:

1SELECT words FROM tests WHERE words REGEXP 'hello';

而在Like中这样的写法仅返回记录="hello"的记录。为了限定正则表达式以某个模式串开头或者结尾,可以通过添加"^"和"$"标识符来限定,例如仍然搜索以"hello"开头的目标字段,则其SQL语句为:

1SELECT words FROM tests WHERE words REGEXP '^hello';

内置函数

对于包含某些特定模式串的模糊搜索,可以通过MySQL内置函数实现。可以完成这一功能的函数包括Instr、Locate和Position等,其功能语法很相近,均是返回子串在字符串中的索引,且索引下标从1开始,当子串不存在是返回0。需要注意的是三个函数中子串和字符串的先后顺序是不一致的。例如以下语句均成功检索,且返回目标索引1

1SELECT INSTR("hello,world", 'hello');-- 1

2SELECT LOCATE('hello', "hello,world");-- 1

3SELECT POSITION('hello' in "hello, world"); -- 1

应用以上3个内置函数,搜索上述测试表中包含"hello"的记录,则相应SQL语句为:

1SELECT words FROM tests WHERE INSTR(words, 'hello');

2SELECT words FROM tests WHERE LOCATE('hello', words);

3SELECT words FROM tests WHERE POSITION('hello' in words);

全文索引

抛开索引谈查询性能,都是耍流氓!

全文索引是MySQL中索引的一种,曾经仅在引擎为MyISAM的表中支持,从5.6版本开始在InnoDB中也开始支持全文索引,支持的字段格式包括CHAR、VARCHAR和TEXT。在如上已经添加了全文索引的tests表中,仍然查询包含"hello"的记录,应用全文索引查询的SQL语句为:

1SELECT words FROM tests WHERE MATCH(words) against('hello');

实际上,MATCH(words) against('hello')返回的是字段words对目标字符"hello"的匹配程度:当不存在任何匹配结果时,返回0;否则,根据匹配次数的多少和位置先后返回一个匹配度。例如,如下SQL语句返回表中每条记录对目标字段"hello"的匹配度:

1SELECT MATCH(words) against('hello') FROM tests;

返回结果如下:

查询性能对比

为了对比以上4种模糊搜索方式的性能,我们这里构建一个规模较大且更具一般性的数据表。本文选择采集若干条英文格言,用于创建目标数据库。

创建数据表

为简单起见,仅创建一个名为says的字段,且对其添加全文索引。

1CREATE TABLE IF NOT EXISTS sayings(says TEXT, FULLTEXT (says));

英文格言信息获取

在网上找了个英文格言的网站,并写了一个python小爬虫爬取页面全部300条英文格言,爬虫源码如下(为了增加记录条数,将300条记录重写100词,即数据库中包含30000条记录):

1from pyquery import PyQuery as pq

2from pymysql import connect

3

4doc = pq(url='http://www.1juzi.com/new/43141.html', encoding = 'gb18030')

5items=doc("div.content>p:nth-child(2n+1)").items

6hots = [item.text for item in items]

7with connect(host="localhost", user="root", password="123456", db='teststr', charset='utf8') as cur:

8 sql_insert = 'insert into sayings values (%s);'

9 for _ in range(100):

10 cur.executemany(sql_insert, hots)

对爬取的英文短句写入创建的数据表中,结果如下:

既然是英文励志格言短句,那么我们就来查询其中包括"success"的记录。

首先查询语句中任意位置包含"success"的记录,4种方式SQL语句及执行时间为:

1-- LIKE通配符

2SELECT says FROM sayings WHERE says LIKE '%success%'

3> OK

4> 时间: 0.036s

5

6-- REGEXP正则匹配

7SELECT says FROM sayings WHERE says REGEXP 'success'

8> OK

9> 时间: 0.053s

10

11-- 内置函数查找

12SELECT says FROM sayings WHERE INSTR(says, 'success')

13> OK

14> 时间: 0.045s

15

16SELECT says FROM sayings WHERE LOCATE('success', says)

17> OK

18> 时间: 0.044s

19

20SELECT says FROM sayings WHERE POSITION('success' in says)

21> OK

22> 时间: 0.047s

23

24-- 全文索引

25SELECT says FROM sayings WHERE MATCH(says) against('Success')

26> OK

27> 时间: 0.006s

可见,全文索引速度最宽,领先其他方式接近一个量级;Like通配符速度其次,但与其他几种查询方式效率相差不大。

通过Explain查询计划,我们可以发现全文索引方式由于应用了索引而无需全表查询,所以执行速度快,而其他三种模糊查询方式均为执行全表查询。

全文索引查询计划

Like通配符查询计划

实际上,对于添加索引的字段应用Like查询时,可以应用索引加速查询,为勒验证全文索引条件下是否仍然可以应用索引,我们进行第二组性能测试:

查询语句中以"success"开头的记录(全文索引方式不支持指定单词开头的查询任务),相应SQL语句即执行时间如下:

1SELECT says FROM sayings WHERE says LIKE 'success%'

2> OK

3> 时间: 0.015s

4

5SELECT says FROM sayings WHERE says REGEXP '^success'

6> OK

7> 时间: 0.046s

8

9SELECT says FROM sayings WHERE INSTR(says, 'success')=1

10> OK

11> 时间: 0.042s

12

13SELECT says FROM sayings WHERE LOCATE('success', says)=1

14> OK

15> 时间: 0.051s

16

17SELECT says FROM sayings WHERE POSITION('success' in says)=1

18> OK

19> 时间: 0.049s

20

21SELECT says FROM sayings WHERE MATCH(says) against('Success')

22> OK

23> 时间: 0.007s

可以看到,修改后的Like查询效率提升明显,并大幅超过其他方式。但解释查询计划发现,虽然possible_key显示了索引字段,但实际仍然未应用任何索引(key为null),即仍然进行全表查询(Type = All)。之所以带来速度上的大幅提升,仅仅是因为对'success%'要比'%success%'执行字符串匹配要快得多(后者要整列匹配,前者仅需匹配开头的单词即可),而与索引无关。

Like'success%'仍然无法应用全文索引

所以,得到的结论是Like通配符无法有效利用全文索引加速查询,但在特定模式下的查询速度可快于通配符%模式下的查询。

总结

本文探讨了MySQL中4中模糊查询方式,包括:

Like通配符用于查询目标字段与模式串完全匹配的记录,且无法应用全文索引提高查询速度,但以特定字符开头的模糊查询比以"%"开头时速度提升明显;

RegExp正则表达式功能强大,可实现任意模式查询,但执行效率一般;

简单的子串有无查询还可应用MySQL内置函数,包括Instr、Locate和Position等,用法相近,但效率一般;

对于包含全文索引的目标字段查询,应用全文索引查询效率最高,但可定制性差,不支持任意匹配查询;

记录数目较少时,几种查询方式效率均可接受,可根据任务需求灵活选用。

声明:本文为作者投稿,版权归其所有。

戳链接或点击阅读原文,直达报名:https://t.csdnimg.cn/uZfQ返回搜狐,查看更多

责任编辑:

mysql模糊查询单词_你知道什么是 MySQL 的模糊查询?相关推荐

  1. c语言连接数据库例子,c语言操作mysql数据库小例子_互帮互助(C language MySQL database operation example _ mutual help).doc...

    这是精心收集的精品经典资料,值得下载保存阅读! c语言操作mysql数据库小例子_互帮互助(C language MySQL database operation example _ mutual h ...

  2. mysql子查询缺点_[慢查优化]慎用MySQL子查询,尤其是看到DEPENDENT SUBQUERY标记时

    它的执行计划如下,请注意看关键词"DEPENDENT SUBQUERY": id  select_type         table   type            poss ...

  3. mysql一秒查询次数_单个select语句实现MySQL查询统计次数

    单个select语句实现MySQL查询统计次数 单个select语句实现MySQL查询统计次数的方法用处在哪里呢?用处太多了,比如一个成绩单,你要查询及格得人数与不及格的人数,怎么一次查询出来? My ...

  4. myeclipse读取mysql表中数据_在myeclipse中连接mysql查询数据

    package com.ynu.www; import java.sql.*; public class ComInfluence { /** * @param args */ // 成功加载后,会将 ...

  5. mysql not null 性能_如何使用NULL提高MySQL查询的性能?

    下表中有几百万条记录: CREATE TABLE `customers` ( `id` int(11) unsigned NOT NULL AUTO_INCREMENT, `store_id` int ...

  6. c#中使用mysql查询语句_遇到@符合怎么办_C# Mysql 查询 Rownum的解决方法

    C# 一段程序如下,执行出错,错误信息是 "Parameter '@rowNum' must be defined" 但是直接在 mySql workbatch 中运行是正确的!! ...

  7. mysql not in优化_实践中如何优化MySQL(收藏)

    SQL语句的优化: 1.尽量避免使用子查询 3.用IN来替换OR 4.LIKE前缀%号.双百分号._下划线查询非索引列或*无法使用到索引,如果查询的是索引列则可以 5.读取适当的记录LIMIT M,N ...

  8. mysql数据库模型相应解释_数据库事务系列-MySQL跨行事务模型

    说来和MySQL倒是有缘,毕业的第一份工作就被分配到了RDS团队,主要负责把MySQL弄到云上做成数据库服务.虽说整天和MySQL打交道,但说实话那段时间并没有很深入的理解MySQL内核,做的事情基本 ...

  9. mysql面试 索引类型_面试题目整理(MySQL系列-索引)

    最近又开始面试了,整理一些面试的高频考点吧.有幸参与一次社招面试,看的还是底层知识: 1.数据库存储引擎分类: (1):存储引擎主要有: 1. MyISAM(不支持事务) , 2. InnoDB(支持 ...

最新文章

  1. matlab变量代替语句,MATLAB只是简单地把表达式里的变量名替换成数值,而不给出结果...
  2. (格式化字符串漏洞).fini.array劫持,使程序流程循环进行
  3. 卸料装置弹性零件的计算方法_冲裁模卸料板的设计
  4. 适合python爬虫使用的浏览器_python爬虫:使用Selenium模拟浏览器
  5. 介绍一个前端页面开发必备神器,chrome扩展,设备模拟器
  6. Qt事件传递相关问题
  7. 深入解析:你听说过Oracle数据库的更新重启动吗?
  8. Spring MVC浅入浅出——不吹牛逼不装逼
  9. 【Scheme归纳】4 高阶函数
  10. webstorm注释写出的提示
  11. MBR和 GPT互转导致Windows无法开机,镜像备份找不到
  12. 2018 *精读书单 -选读
  13. Mac提高办公/开发效率的几个软件推荐
  14. 红米AC3000、小米cr8806、8808、8809成功刷入openwrt
  15. hyperopt/hyperas
  16. Jupyter notebook更改字体
  17. OWASP Top 10 安全漏洞详解
  18. Linux v4l2架构学习
  19. php 即时聊天 实现方法,谈谈利用workerman实现即时聊天功能的方法
  20. 张宇1000题高等数学 第二章 数列极限

热门文章

  1. python3将unicode编码\u60f3\u4f60\u4e86转换成中文
  2. 深圳云计算培训学习:如何评价我国云计算的发展现状?--【千锋】
  3. 公司食堂-美团2021校招笔试(线性数据结构的应用)
  4. FS4052】12.6v2A三节锂电池充电芯片方案
  5. 1.DRR-正向投影
  6. 百度全景图片展示-20130907
  7. 机器学习应用在哪些方向?机器学习应用实例
  8. Linux中lzop压缩工具使用
  9. 零点极点传递函数以及伯德图
  10. 微博推荐算法实践与机器学习平台演进