mac mysql ngram_MySQL ngram
MySQL ngram
简介:本教程向您展示如何使用MySQL ngram全文解析器来支持中文,日文,韩文等表意语言的全文搜索。
MySQL ngram全文解析器简介
内置的MySQL全文解析器使用空格确定单词的开头和结尾。当涉及到诸如中文,日文或韩文等的表意语言时,这是一个限制,因为这些语言不使用单词分隔符。
为了解决这个问题,MySQL提供了ngram全文解析器。从版本5.7.6开始,MySQL包含ngram全文解析器作为内置服务器插件,这意味着MySQL在MySQL数据库服务器启动时自动加载此插件。MySQL支持InnoDB和MyISAM存储引擎的ngram全文解析器。
根据定义,ngram是来自文本序列的许多字符的连续序列。ngram全文解析器的主要功能是将一系列文本标记为一个由n个字符组成的连续序列。
下面说明了ngram全文解析器如何为不同的n值标记一系列文本:
n = 1: 'm','y','s','q','l'
n = 2: 'my', 'ys', 'sq','ql'
n = 3: 'mys', 'ysq', 'sql'
n = 4: 'mysq', 'ysql'
n = 5: 'mysql'
使用ngram解析器创建FULLTEXT索引
要创建一个FULLTEXT索引,使用NGRAM全文解析器,你加WITH PARSER ngram的CREATE TABLE,ALTER TABLE或CREATE INDEX声明。
例如,以下语句创建新posts表,并将title和body列添加到FULLTEXT使用ngram全文解析器的索引。
DROP TABLE IF EXISTS posts;
CREATE TABLE posts (
id INT PRIMARY KEY AUTO_INCREMENT,
title VARCHAR(255),
body TEXT,
FULLTEXT ( title , body ) WITH PARSER NGRAM
) ENGINE=INNODB CHARACTER SET UTF8MB4;
以下INSERT语句在posts表中插入一个新行:
SET NAMES utf8mb4;
INSERT INTO posts(title,body)
VALUES('MySQL全文搜索','MySQL提供了具有许多好的功能的内置全文搜索'),
('MySQL教程','学习MySQL快速,简单和有趣');
请注意,SET NAMES语句设置客户端和服务器将用于发送和接收数据的字符集; 在这种情况下,它是utf8mb4。
要查看ngram如何标记文本,请使用以下语句:
SET GLOBAL innodb_ft_aux_table="mysqldemo/posts";
SELECT
*
FROM
information_schema.innodb_ft_index_cache
ORDER BY doc_id , position;
+--------+--------------+-------------+-----------+--------+----------+
| WORD | FIRST_DOC_ID | LAST_DOC_ID | DOC_COUNT | DOC_ID | POSITION |
+--------+--------------+-------------+-----------+--------+----------+
| my | 2 | 3 | 2 | 2 | 0 |
| ys | 2 | 3 | 2 | 2 | 1 |
| sq | 2 | 3 | 2 | 2 | 2 |
| ql | 2 | 3 | 2 | 2 | 3 |
| l全 | 2 | 2 | 1 | 2 | 4 |
| 全文 | 2 | 2 | 1 | 2 | 5 |
| 文搜 | 2 | 2 | 1 | 2 | 8 |
| 搜索 | 2 | 2 | 1 | 2 | 11 |
| ql | 2 | 3 | 2 | 2 | 18 |
| ys | 2 | 3 | 2 | 2 | 18 |
| my | 2 | 3 | 2 | 2 | 18 |
| sq | 2 | 3 | 2 | 2 | 18 |
| l提 | 2 | 2 | 1 | 2 | 22 |
| 提供 | 2 | 2 | 1 | 2 | 23 |
| 供了 | 2 | 2 | 1 | 2 | 26 |
| 了具 | 2 | 2 | 1 | 2 | 29 |
| 具有 | 2 | 2 | 1 | 2 | 32 |
| 有许 | 2 | 2 | 1 | 2 | 35 |
| 许多 | 2 | 2 | 1 | 2 | 38 |
| 多好 | 2 | 2 | 1 | 2 | 41 |
| 好的 | 2 | 2 | 1 | 2 | 44 |
| 的功 | 2 | 2 | 1 | 2 | 47 |
| 功能 | 2 | 2 | 1 | 2 | 50 |
| 能的 | 2 | 2 | 1 | 2 | 53 |
| 的内 | 2 | 2 | 1 | 2 | 56 |
| 内置 | 2 | 2 | 1 | 2 | 59 |
| 文搜 | 2 | 2 | 1 | 2 | 60 |
| 全文 | 2 | 2 | 1 | 2 | 60 |
| 搜索 | 2 | 2 | 1 | 2 | 60 |
| 置全 | 2 | 2 | 1 | 2 | 62 |
| my | 2 | 3 | 2 | 3 | 0 |
| ys | 2 | 3 | 2 | 3 | 1 |
| sq | 2 | 3 | 2 | 3 | 2 |
| ql | 2 | 3 | 2 | 3 | 3 |
| l教 | 3 | 3 | 1 | 3 | 4 |
| 教程 | 3 | 3 | 1 | 3 | 5 |
| 学习 | 3 | 3 | 1 | 3 | 12 |
| 习m | 3 | 3 | 1 | 3 | 15 |
| my | 2 | 3 | 2 | 3 | 18 |
| sq | 2 | 3 | 2 | 3 | 18 |
| ql | 2 | 3 | 2 | 3 | 18 |
| ys | 2 | 3 | 2 | 3 | 18 |
| l快 | 3 | 3 | 1 | 3 | 22 |
| 快速 | 3 | 3 | 1 | 3 | 23 |
| 速, | 3 | 3 | 1 | 3 | 26 |
| ,简 | 3 | 3 | 1 | 3 | 29 |
| 简单 | 3 | 3 | 1 | 3 | 32 |
| 单和 | 3 | 3 | 1 | 3 | 35 |
| 和有 | 3 | 3 | 1 | 3 | 38 |
| 有趣 | 3 | 3 | 1 | 3 | 41 |
+--------+--------------+-------------+-----------+--------+----------+
50 rows in set (0.02 sec)
此查询对于故障排除非常有用。例如,如果单词未包含在搜索结果中,则单词可能未被索引,因为它是一个停用词,或者可能是另一个原因。
设置ngram令牌大小
如您所见,前面的示例中,ngram中的令牌大小(n)默认为2.要更改令牌大小,请使用ngram_token_size配置选项,其值介于1和10之间。
请注意,较小的令牌大小会使较小的全文搜索索引成为可能,因此您可以更快地进行搜索。
因为ngram_token_size是只读变量,所以您只能使用两个选项设置其值:
首先,在启动字符串中:
mysqld --ngram_token_size=1
二,在配置文件中:
[mysqld]
ngram_token_size=1
ngram解析器短语搜索
MySQL将短语搜索转换为ngram短语搜索。例如,"abc"转换为"ab bc",返回包含"ab bc"和的文档"abc"。
下面的示例显示了搜索短语搜索中的posts表:
SELECT
id, title, body
FROM
posts
WHERE
MATCH (title , body) AGAINST ('搜索' );
+----+-------------------+-------------------------------------------------------------+
| id | title | body |
+----+-------------------+-------------------------------------------------------------+
| 1 | MySQL全文搜索 | MySQL提供了具有许多好的功能的内置全文搜索 |
+----+-------------------+-------------------------------------------------------------+
1 row in set (7.74 sec)
用ngram处理搜索结果
自然语言模式
在NATURAL LANGUAGE MODE搜索中,搜索项将转换为ngram值的并集。假设令牌大小为2或bigram,搜索项mysql将转换为my ys sq和ql。
SELECT
*
FROM
posts
WHERE
MATCH (title , body) AGAINST ('简单和有趣' IN natural language MODE);
+----+-------------+-------------------------------------+
| id | title | body |
+----+-------------+-------------------------------------+
| 2 | MySQL教程 | 学习MySQL快速,简单和有趣 |
+----+-------------+-------------------------------------+
1 row in set (0.01 sec)
布尔模式
在BOOLEAN MODE搜索中,搜索项将转换为ngram短语搜索。例如:
SELECT
*
FROM
posts
WHERE
MATCH (title , body) AGAINST ('简单和有趣' IN BOOLEAN MODE);
+----+-------------+-------------------------------------+
| id | title | body |
+----+-------------+-------------------------------------+
| 2 | MySQL教程 | 学习MySQL快速,简单和有趣 |
+----+-------------+-------------------------------------+
1 row in set (0.16 sec)
ngram通配符搜索
ngram FULLTEXT索引只包含ngrams ,因此它不知道术语的开头。执行通配符搜索时,可能会返回意外结果。
以下规则适用于使用ngram FULLTEXT搜索索引的通配符搜索:
如果通配符中的前缀术语短于ngram令牌大小,则查询将返回包含以前缀术语开头的ngram令牌的所有文档。例如:
SELECT
id, title, body
FROM
posts
WHERE
MATCH (title , body) AGAINST ('my*' );
+----+-------------------+-------------------------------------------------------------+
| id | title | body |
+----+-------------------+-------------------------------------------------------------+
| 1 | MySQL全文搜索 | MySQL提供了具有许多好的功能的内置全文搜索 |
| 2 | MySQL教程 | 学习MySQL快速,简单和有趣 |
+----+-------------------+-------------------------------------------------------------+
2 rows in set (4.40 sec)
如果通配符中的前缀术语长于ngram令牌大小,MySQL将把前缀术语转换为ngram短语并忽略通配符运算符。请参阅以下示例:
SELECT
id, title, body
FROM
posts
WHERE
MATCH (title , body) AGAINST ('mysqld*' );
+----+-------------------+-------------------------------------------------------------+
| id | title | body |
+----+-------------------+-------------------------------------------------------------+
| 1 | MySQL全文搜索 | MySQL提供了具有许多好的功能的内置全文搜索 |
| 2 | MySQL教程 | 学习MySQL快速,简单和有趣 |
+----+-------------------+-------------------------------------------------------------+
2 rows in set (0.01 sec)
在这个例子中,术语“ mysqld"被转换成ngram短语:"my" "ys" "sq" "ql" "ld"。因此,将返回包含这些短语之一的所有文档。
添加或修改 ngram 的索引
要向FULLTEXT现有表添加索引,可以使用ALTER TABLE或 CREATE INDEX。
ALTER TABLE posts ADD FULLTEXT INDEX ft_index (title,body) WITH PARSER ngram;
或者
CREATE FULLTEXT INDEX ft_index ON posts (title,body) WITH PARSER ngram;
处理停用词
ngram解析器排除包含禁用词列表中的停用词的令牌。例如,假设ngram_token_size为2且文档包含"abc"。ngram解析器将文档标记为"ab"和"bc"。如果"b"是一个停用词,ngram将排除两者"ab","bc"因为它们包含"b"。
请注意,如果语言不是英语,则必须定义自己的禁用词列表。此外,长度大于的停用词将ngram_token_size被忽略。
在本教程中,您学习了如何使用MySQL ngram全文解析器来处理表意语言的全文搜索。
mac mysql ngram_MySQL ngram相关推荐
- mysql ngram_MySQL ngram全文解析器
本教程将向您展示如何使用MySQL ngram全文解析器来支持中文,日文,韩文等表意语言的全文搜索. MySQL ngram全文解析器简介 MySQL内置的全文解析器使用空格确定单词的开始和结束.当涉 ...
- mac mysql密码错误_解决mac 下mysql安装后root用户登录密码错误问题
使用的mac OS 10.11 安装mysql后访问root/root用户失败,网上找了一些解决办法,下面记录下解决方法方便以后自己查询 概述(看懂下面就不用看了): 停服务:sudo /usr/l ...
- mac mysql 忘记初始root密码,重置密码
mac mysql 忘记初始root密码,重置密码 cd /usr/local/mysql/bin/ sudo su //回车后提示输入密码,这里的密码切记是电脑管理员的密码,我之前一直以为是mysq ...
- Mac MySQL忘记root密码
Mac MySQL忘记root密码 本文转载自Mac MySql忘记root密码! 刚刚在Mac上安装了下MySQL,但是发现不知道root密码是什么!所以,查找别人的博客,亲测可用,做个记录. 第一 ...
- 【Mysql】 Mac Mysql密码重置
Mac Mysql密码重置 Mac系统 1.切换到root用户: 方式一:完全切换到root用户,回车输入电脑的密码 su - root 方式二:当前用户临时获得root权限 su 或 sudo su ...
- MySql的Ngram全文索引
前言 在我们日常开发中,很多时候会遇到对数据库中某个字段模糊查询的需求,也就是like某个字段,但是很多公司像阿里,京东都禁止使用like来对数据库进行模糊查询,原因是啥呢? 我们先来看下面三条语句 ...
- Mac MySQL设置密码
2017-06-12T10:21:47.854165Z 1 [Note] A temporary password is generated for root@localhost: 7hp<_l ...
- ngram mysql_MySQL数据库之MySQL 全文检索 ngram Mybatis
本文主要向大家介绍了MySQL数据库之MySQL 全文检索 ngram Mybatis ,通过具体的内容向大家展现,希望对大家学习MySQL数据库有所帮助. 创建全文索引(FullText index ...
- mac mysql ngram_在MySQL中查找最长匹配的ngram
如果我正确理解你的逻辑,这个查询应该给你正确的结果: SELECT n1.ngram FROM ngrams n1 LEFT JOIN ngrams n2 ON n2.ngram IN ('stack ...
最新文章
- 汽车票销售系统mysql,jsp683客运汽车票网上售票系统mysql
- php商城的购物车功能,PHP实现添加购物车功能
- ZOJ 3829 Known Notation(贪心)
- python计算机结构_python06--计算机内存结构与存储管理(P27)
- VTK:结构化网格之StructuredGridOutline
- ibatis 操作返回值
- 梦真的是反的 | 今日最佳
- php 卡迪尔的秘密
- 视频编辑,4k播放,3D游戏, 阿里云图形工作站,了解一下?
- nginx负载均衡的5种策略(转载)
- 锐起无盘服务器ip设置,锐起无盘系统教程dhcp
- 计算机组成原理考试试题答案,计算机组成原理期末考试试题及答案 (精选可编辑)...
- 威纶触摸屏485轮询通讯_威纶通触摸屏与PLC实现一机多屏通讯方法
- 【百度头条】精准微营销—本地离线92GBQQ群数据库,包含全部版本
- parallel scavenge 与parnew 区别:
- python期货基本面分析_用python对股票期货做时序分析
- 蓝牙技术|AirPods Pro 2 支持蓝牙 LE Audio 技术带来的 5 大好处
- MySQL导入myi,myd,frm文件及浏览
- matlab上位机串口通信中如何发送16进制数,而不是当做ASCII字符发送(已实测成功)
- <JVM笔记:内存与垃圾回收>13-垃圾回收器