本教程将向您展示如何使用MySQL ngram全文解析器来支持中文,日文,韩文等表意语言的全文搜索。

MySQL ngram全文解析器简介

MySQL内置的全文解析器使用空格确定单词的开始和结束。当涉及汉语,日语或韩语等表意语言语言时,这是一个限制,因为这些语言不使用分词符。

为了解决这个问题,MySQL提供了ngram全文解析器。自MySQL5.7.6版起,MySQL将ngram全文解析器作为内置的服务器插件,这意味着当MySQL数据库服务器启动时,MySQL会自动加载该插件。 MySQL支持用于InnoDB和MyISAM存储引擎的ngram全文解析器。

根据定义,ngram是来自文本序列的多个字符的连续序列。 ngram全文解析器的主要功能是将文本序列标记为n个字符的连续序列。

以下说明了ngram全文解析器如何标记不同值n的文本序列:

n = 1: 'm','y','s','q','l'

n = 2: 'my', 'ys', 'sq','ql'

n = 3: 'mys', 'ysq', 'sql'

n = 4: 'mysq', 'ysql'

n = 5: 'mysql'

使用 ngram 解析器创建FULLTEXT索引

要创建使用ngram全文解析器的FULLTEXT索引,可以在CREATE TABLE,ALTER TABLE或CREATE INDEX语句中添加WITH PARSER ngram。

例如,以下语句创建新的帖子表,并将标题和正文列添加到使用ngram全文解析器的FULLTEXT索引。

USE testdb;

CREATE TABLE posts (

id INT PRIMARY KEY AUTO_INCREMENT,

title VARCHAR(255),

body TEXT,

FULLTEXT ( title , body ) WITH PARSER NGRAM

) ENGINE=INNODB CHARACTER SET UTF8;

以下INSERT语句赂posts表中插入一个新行:

SET NAMES utf8;

INSERT INTO posts(title,body)

VALUES('MySQL全文搜索','MySQL提供了具有许多好的功能的内置全文搜索'),

('MySQL教程','学习MySQL快速,简单和有趣');

请注意,SET NAMES语句设置客户端和服务器将用于发送和接收数据的字符集; 在本示例中,它使用的是utf8。

要查看ngram如何标记文本,请使用以下语句:

SET GLOBAL innodb_ft_aux_table="testdb/posts";

SELECT

*

FROM

information_schema.innodb_ft_index_cache

ORDER BY doc_id , position;

执行上面查询语句,得到以下结果 -

mysql> SELECT

*

FROM

information_schema.innodb_ft_index_cache

ORDER BY doc_id , position;

+------+--------------+-------------+-----------+--------+----------+

| WORD | FIRST_DOC_ID | LAST_DOC_ID | DOC_COUNT | DOC_ID | POSITION |

+------+--------------+-------------+-----------+--------+----------+

| my | 2 | 3 | 2 | 2 | 0 |

| ys | 2 | 3 | 2 | 2 | 1 |

| sq | 2 | 3 | 2 | 2 | 2 |

| ql | 2 | 3 | 2 | 2 | 3 |

| l全 | 2 | 2 | 1 | 2 | 4 |

| 全文 | 2 | 2 | 1 | 2 | 5 |

| 文搜 | 2 | 2 | 1 | 2 | 8 |

| 搜索 | 2 | 2 | 1 | 2 | 11 |

| ql | 2 | 3 | 2 | 2 | 18 |

| my | 2 | 3 | 2 | 2 | 18 |

| ys | 2 | 3 | 2 | 2 | 18 |

| sq | 2 | 3 | 2 | 2 | 18 |

| l提 | 2 | 2 | 1 | 2 | 22 |

| 提供 | 2 | 2 | 1 | 2 | 23 |

| 供了 | 2 | 2 | 1 | 2 | 26 |

| 了具 | 2 | 2 | 1 | 2 | 29 |

| 具有 | 2 | 2 | 1 | 2 | 32 |

| 有许 | 2 | 2 | 1 | 2 | 35 |

| 许多 | 2 | 2 | 1 | 2 | 38 |

| 多好 | 2 | 2 | 1 | 2 | 41 |

| 好的 | 2 | 2 | 1 | 2 | 44 |

| 的功 | 2 | 2 | 1 | 2 | 47 |

| 功能 | 2 | 2 | 1 | 2 | 50 |

| 能的 | 2 | 2 | 1 | 2 | 53 |

| 的内 | 2 | 2 | 1 | 2 | 56 |

| 内置 | 2 | 2 | 1 | 2 | 59 |

| 搜索 | 2 | 2 | 1 | 2 | 60 |

| 文搜 | 2 | 2 | 1 | 2 | 60 |

| 全文 | 2 | 2 | 1 | 2 | 60 |

| 置全 | 2 | 2 | 1 | 2 | 62 |

| my | 2 | 3 | 2 | 3 | 0 |

| ys | 2 | 3 | 2 | 3 | 1 |

| sq | 2 | 3 | 2 | 3 | 2 |

| ql | 2 | 3 | 2 | 3 | 3 |

| l教 | 3 | 3 | 1 | 3 | 4 |

| 教程 | 3 | 3 | 1 | 3 | 5 |

| 学习 | 3 | 3 | 1 | 3 | 12 |

| 习m | 3 | 3 | 1 | 3 | 15 |

| sq | 2 | 3 | 2 | 3 | 18 |

| ql | 2 | 3 | 2 | 3 | 18 |

| my | 2 | 3 | 2 | 3 | 18 |

| ys | 2 | 3 | 2 | 3 | 18 |

| l快 | 3 | 3 | 1 | 3 | 22 |

| 快速 | 3 | 3 | 1 | 3 | 23 |

| 速, | 3 | 3 | 1 | 3 | 26 |

| ,简 | 3 | 3 | 1 | 3 | 29 |

| 简单 | 3 | 3 | 1 | 3 | 32 |

| 单和 | 3 | 3 | 1 | 3 | 35 |

| 和有 | 3 | 3 | 1 | 3 | 38 |

| 有趣 | 3 | 3 | 1 | 3 | 41 |

+------+--------------+-------------+-----------+--------+----------+

50 rows in set

此查询对于故障排除目的很有用。例如,如果一个单词不包括在搜索结果中,则该单词可能没有被编入索引,因为它是一个停止词或者可能是其它原因。

设置ngram令牌大小

在前面的示例可以看到,默认情况下,ngram中的令牌大小(n)为2,要更改令牌大小,请使用ngram_token_size配置选项,值的范围是:1到10。

请注意,较小的令牌大小可使较小的全文搜索索引更快地进行搜索。

因为ngram_token_size是只读变量,因此您只能使用两个选项设置其值:

第一种方式,在启动字符串中:

mysqld --ngram_token_size=1

第二种方式 - 在配置文件中:

[mysqld]

ngram_token_size=1

ngram解析器短语搜索

MySQL将短语搜索转换成ngram短语搜索。 例如,abc被转换为ab bc,它返回包含ab bc和abc的文档。

以下示例显示在posts表中搜索短语:搜索:

SELECT

id, title, body

FROM

posts

WHERE

MATCH (title , body) AGAINST ('搜索' );

执行上面查询语句,得到以下结果 -

mysql> SELECT

id, title, body

FROM

posts

WHERE

MATCH (title , body) AGAINST ('搜索' );

+----+---------------+-------------------------------------------+

| id | title | body |

+----+---------------+-------------------------------------------+

| 1 | MySQL全文搜索 | MySQL提供了具有许多好的功能的内置全文搜索 |

+----+---------------+-------------------------------------------+

1 row in set

用ngram处理搜索结果

自然语言模式

在自然语言模式搜索中,搜索项被转换为ngram值的并集。 假设令牌大小为2或者二进制,则搜索项mysql被转换为我的my ys sq和ql。

SELECT

*

FROM

posts

WHERE

MATCH (title , body) AGAINST ('简单和有趣' IN natural language MODE);

执行上面查询语句,得到以下结果 -

mysql> SELECT

*

FROM

posts

WHERE

MATCH (title , body) AGAINST ('简单和有趣' IN natural language MODE);

+----+-----------+---------------------------+

| id | title | body |

+----+-----------+---------------------------+

| 2 | MySQL教程 | 学习MySQL快速,简单和有趣 |

+----+-----------+---------------------------+

1 row in set

布尔模式

在BOOLEAN MODE搜索中,搜索项被转换成ngram短语搜索。 例如:

SELECT

*

FROM

posts

WHERE

MATCH (title , body) AGAINST ('简单和有趣' IN BOOLEAN MODE);

执行上面查询语句,得到以下结果 -

mysql> SELECT

*

FROM

posts

WHERE

MATCH (title , body) AGAINST ('简单和有趣' IN BOOLEAN MODE);

+----+-----------+---------------------------+

| id | title | body |

+----+-----------+---------------------------+

| 2 | MySQL教程 | 学习MySQL快速,简单和有趣 |

+----+-----------+---------------------------+

1 row in set

ngram通配符搜索

ngram FULLTEXT索引仅包含ngram,因此它不知道短语的开始。执行通配符搜索时,可能会返回意外的结果。

以下规则将应用于使用ngram FULLTEXT搜索索引的通配符搜索:

如果通配符中的前缀短语短于ngram令牌大小,则查询返回所有包含以前缀项为起始的ngram令牌的文档。 例如:

SELECT

id, title, body

FROM

posts

WHERE

MATCH (title , body) AGAINST ('my*' );

执行上面查询语句,得到以下结果 -

mysql> SELECT

id, title, body

FROM

posts

WHERE

MATCH (title , body) AGAINST ('my*' );

+----+---------------+-------------------------------------------+

| id | title | body |

+----+---------------+-------------------------------------------+

| 1 | MySQL全文搜索 | MySQL提供了具有许多好的功能的内置全文搜索 |

| 2 | MySQL教程 | 学习MySQL快速,简单和有趣 |

+----+---------------+-------------------------------------------+

2 rows in set

如果通配符中的前缀短语长于ngram令牌大小,则MySQL将将前缀术语转换为ngram短语,并忽略通配符运算符。 请参阅以下示例:

SELECT

id, title, body

FROM

posts

WHERE

MATCH (title , body) AGAINST ('mysqld*' );

执行上面查询语句,得到以下结果 -

mysql> SELECT

id, title, body

FROM

posts

WHERE

MATCH (title , body) AGAINST ('mysqld*' );

+----+---------------+-------------------------------------------+

| id | title | body |

+----+---------------+-------------------------------------------+

| 1 | MySQL全文搜索 | MySQL提供了具有许多好的功能的内置全文搜索 |

| 2 | MySQL教程 | 学习MySQL快速,简单和有趣 |

+----+---------------+-------------------------------------------+

2 rows in set

在这个例子中,短语“mysqld”被转换为ngram短语:my ys sq ql ld,因此返回包含其中一个短语的所有文档。

处理停止词

ngram解析器不包括在停止词列表中包含停止词的令牌。例如,假设ngram_token_size为2,文档包含abc。 ngram解析器将文档标记为ab和bc。 如果b是一个停用词,则ngram将包含ab和bc,因为它们包含b。

请注意,如果语言不是英语,则必须定义自己的词条列表。 此外,长度大于ngram_token_size的停止词将被忽略。

在本教程中,您已经学会了如何使用MySQL ngram全文解析器来处理表意语言的全文搜索。

¥ 我要打赏

纠错/补充

收藏

加QQ群啦,易百教程官方技术学习群

注意:建议每个人选自己的技术方向加群,同一个QQ最多限加 3 个群。

mysql ngram_MySQL ngram全文解析器相关推荐

  1. mysql 解析器_MySQL ngram全文解析器

    本教程将向您展示如何使用MySQL ngram全文解析器来支持中文,日文,韩文等表意语言的全文搜索. MySQL ngram全文解析器简介 MySQL内置的全文解析器使用空格确定单词的开始和结束.当涉 ...

  2. MySQL使用全文索引+ngram全文解析器进行全文检索

    一.前言 最近有项目需要使用mysql进行全文检索,由于之前都是使用的Elasticsearch数据库进行数据检索,因此查询了相关资料后,了解了mysql如何使用全文索引. 二.ngram全文分析器 ...

  3. mac mysql ngram_MySQL ngram

    MySQL ngram 简介:本教程向您展示如何使用MySQL ngram全文解析器来支持中文,日文,韩文等表意语言的全文搜索. MySQL ngram全文解析器简介 内置的MySQL全文解析器使用空 ...

  4. CC00119.bigdatajava——|JavaMySQL.XML.V10|——|MySQL.v10|常见XML解析器|DOM4API介绍|

    一.XML常见的解析器 ### --- XML常见的解析器~~~ # 解析器:就是根据不同的解析方式提供的具体实现.有的解析器操作过于繁琐, --> 为了方便开发人员,有提供易于操作的解析开发包 ...

  5. 【MySQL全文检索教程2】中文语义分词检索,配置ngram解析器ngram_token_size,innodb_ft_min_token_size,innodb_ft_min_token_size

    MySQL全文索引:中文语义分词检索(相似度匹配) 原文链接:https://blog.csdn.net/qq_39702981/article/details/125141024 通常情况下,全文检 ...

  6. MySql的Ngram全文索引

    前言 在我们日常开发中,很多时候会遇到对数据库中某个字段模糊查询的需求,也就是like某个字段,但是很多公司像阿里,京东都禁止使用like来对数据库进行模糊查询,原因是啥呢? 我们先来看下面三条语句 ...

  7. ngram mysql_mysql8 参考手册--ngram全文分析器

    内置的MySQL全文语法分析器使用单词之间的空白作为定界符来确定单词的开始和结束位置,这在使用不使用单词定界符的表意语言时是一个限制.为了解决此限制,MySQL提供了一个支持中文,日语和朝鲜语(CJK ...

  8. mysql源码如何解析where字句_MySQL解析器源码分析--对select语句中子查询处理逻辑的分析(一)...

    背景 一个最简单的select语句包含select子句.from子句.where子句等,这些子句都不包含子查询(subselect),也没有union操作.而复杂的select语句包含select子句 ...

  9. MySQL内核源码解读-SQL解析之解析器浅析

    MYSQL服务器接收SQL格式的查询,首先要对sql进行解析,内部将文本格式转换为二进制结构,这个转换就是解析器,解析的目的是为了让优化器更好的处理指令,以便以最优的路径,最少的耗时返回我们想要的结果 ...

最新文章

  1. 剑指offer-调整数组顺序使奇数位于偶数前面
  2. centos 7 构造iptables开放80port
  3. Android 实现选中与非选中样式效果
  4. VOC和COCO数据集标注格式的介绍
  5. mysql b tree索引原理_MySQL中B+Tree索引原理
  6. Xfire的aegis绑定方式配置小结
  7. 基于java web的学生考勤带请假管理系统——计算机毕业设计
  8. ArcGIS空间分析笔记(汤国安)
  9. css实现边框阴影效果的方法(含兼容)
  10. 推荐三款自己使用过的鼠标手势插件
  11. Nature重磅:AI直接从大脑中合成脑电波
  12. 对于手势的一些思考(转载)
  13. 利用双均线策略计算中国平安股票收益
  14. jwt 的 token 被获取怎么办
  15. selenium最新各浏览器driver驱动下载地址
  16. 快消品行业S2B2C电子商务网站提升供应链效率,加速行业整合
  17. v-show和v-if
  18. 计算机专业申请ps怎么写,美国留学申请:个人陈述PS范文(计算机专业)
  19. vue 富文本 样式添加不上_vue结合ueditor富文本编辑器(换肤分离)
  20. 独立思考Justic:Sale Motherhood

热门文章

  1. LeetCode66——Plus One(一个整数用数组存储,然后在末尾加1)
  2. s5pv210——时钟系统
  3. Dart中的mixins
  4. BZOJ 1845三角形面积并
  5. [MathType需要安装新版的MT EXtra字体]解决方法
  6. 为什么全天坐在电脑前会让你精疲力竭
  7. @synchronized (object)使用详解
  8. POJ 3694 Network
  9. One year ago begininginginginging!
  10. C# 多线程编程 ThreadStart ParameterizedThreadStart