16-GuliMall ElasticSearch安装分词器

1.安装Xftp

有了Xftp就可以使用Xshell进行文件传输, 这样操纵虚拟机就比较方便

Xftp下载安装

安装成功

2.安装分词器

一个 tokenizer（分词器）接收一个字符流，将之分割为独立的 tokens（词元，通常是独立的单词），然后输出 tokens 流。例如，whitespace tokenizer 遇到空白字符时分割文本。它会将文本 “Quick brown fox!” 分割为 [Quick, brown, fox!]。该 tokenizer（分词器）还负责记录各个 term（词条）的顺序或 position 位置（用于 phrase 短语和 word proximity 词近邻查询），以及 term（词条）所代表的原始 word（单词）的 start （起始）和 end（结束）的 character offsets（字符偏移量）（用于高亮显示搜索的内容）。 Elasticsearch 提供了很多内置的分词器，可以用来构建 custom analyzers（自定义分词器）。

1.安装 ik 分词器

es默认只有因为的分词器,就也就只能识别英文的词语, 但是对于中文词语或成语就不能识别, 所以我们需要安装中文分词器,也就是ik分词器

注意：不能用默认 elasticsearch-plugin install xxx.zip 进行自动安装 https://github.com/medcl/elasticsearch-analysis-ik/releases/tag/v7.4.2
对应 es 版本安装, 我的版本是v7.4.2

下载并解压(文件夹名字随便改, 为了方便我改成了ik)

使用Xftp把ik整个文件夹复制粘贴到es的挂载目录的plugins目录里

并设置ik目录权限全部人可读可写

重启es

docker restart 容器id

2.测试分词器

1.先测试默认的分词器

POST _analyze
{"text": "我是中国人"
}

响应数据

{"tokens" : [{"token" : "我","start_offset" : 0,"end_offset" : 1,"type" : "<IDEOGRAPHIC>","position" : 0},{"token" : "是","start_offset" : 1,"end_offset" : 2,"type" : "<IDEOGRAPHIC>","position" : 1},{"token" : "中","start_offset" : 2,"end_offset" : 3,"type" : "<IDEOGRAPHIC>","position" : 2},{"token" : "国","start_offset" : 3,"end_offset" : 4,"type" : "<IDEOGRAPHIC>","position" : 3},{"token" : "人","start_offset" : 4,"end_offset" : 5,"type" : "<IDEOGRAPHIC>","position" : 4}]
}

可以看到默认的分词器是无法识别中文词语

2.使用ik分词器

POST _analyze
{"analyzer": "ik_smart","text": "我是中国人"
}

响应数据

{"tokens" : [{"token" : "我","start_offset" : 0,"end_offset" : 1,"type" : "CN_CHAR","position" : 0},{"token" : "是","start_offset" : 1,"end_offset" : 2,"type" : "CN_CHAR","position" : 1},{"token" : "中国人","start_offset" : 2,"end_offset" : 5,"type" : "CN_WORD","position" : 2}]
}

POST _analyze
{"analyzer": "ik_max_word","text": "我是中国人"
}

{"tokens" : [{"token" : "我","start_offset" : 0,"end_offset" : 1,"type" : "CN_CHAR","position" : 0},{"token" : "是","start_offset" : 1,"end_offset" : 2,"type" : "CN_CHAR","position" : 1},{"token" : "中国人","start_offset" : 2,"end_offset" : 5,"type" : "CN_WORD","position" : 2},{"token" : "中国","start_offset" : 2,"end_offset" : 4,"type" : "CN_WORD","position" : 3},{"token" : "国人","start_offset" : 3,"end_offset" : 5,"type" : "CN_WORD","position" : 4}]
}

能够看出不同的分词器，分词有明显的区别，所以以后定义一个索引不能再使用默认的 mapping 了，要手工建立 mapping, 因为要选择分词器。

3.自定义词库

修改ik分词器的配置文件 IKAnalyzer.cfg.xml, 文件可以通过挂载目录修改

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
<properties><comment>IK Analyzer 扩展配置</comment><!--用户可以在这里配置自己的扩展字典 --><entry key="ext_dict"></entry><!--用户可以在这里配置自己的扩展停止词字典--><entry key="ext_stopwords"></entry><!--用户可以在这里配置远程扩展字典, ip地址要对应自己的linux虚拟机的ip --><entry key="remote_ext_dict">http://192.168.56.103:80/es/words.txt</entry><!--用户可以在这里配置远程扩展停止词字典--><!-- <entry key="remote_ext_stopwords">words_location</entry> -->
</properties>

这个远程访问资源链接我们可以在web项目写一个服务接口来响应这么一个扩展字典数据, 也可以使用nginx来创建接口并返回数据.这里我们使用ngnix.

1.安装ngnix

先随便启动一个 nginx 实例，只是为了复制出配置目录和文件

docker pull nginx:1.10
docker run -p 80:80 --name nginx -d nginx:1.10

使用命令进入到挂载目录mydata(哪个目录都行, 你可以自己创建一个)

cd /mydata

将容器内的配置文件拷贝到当前目录, 也就是mydata目录

docker container cp nginx:/etc/nginx .

解释一下这个命令
docker container cp 表示复制容器的内容
nginx 是容器的名字
/etc/nginx 是容器内的文件夹
点"."前面有一个空格,别漏了

复制成功

为了方便管理把nginx改名为conf, 并给它创建一个父目录也叫ngnix(可以用命令修改, 我就直接使用Xftp修改, 比较快)

并设置ngnix文件夹全部人可读可写

删除原来的ngnix容器, 并创建新的ngnix容器

docker stop nginx

docker rm $ContainerId

docker run -p 80:80 --name nginx \
-v /mydata/nginx/html:/usr/share/nginx/html \
-v /mydata/nginx/logs:/var/log/nginx \
-v /mydata/nginx/conf:/etc/nginx \
--restart=always \
-d nginx:1.10

当我们设置文件挂载后, 发现容器总是无法正常启动, 这是因为CentOS7中的安全模块selinux把权限禁掉了，无法使用-v命令进行挂载

解决方法：添加selinux规则，将要挂载的目录添加到白名单

chcon -Rt svirt_sandbox_file_t /mydata/nginx/html
chcon -Rt svirt_sandbox_file_t /mydata/nginx/logs
chcon -Rt svirt_sandbox_file_t /mydata/nginx/conf

重启nginx

docker restart 容器id

在挂载目录/mydata/nginx/html里创建一个index.html文件

内容如下(随便写点正确html语言就行)

<h1>welcome to ngnix</h1>

浏览器访问ngnix

http://192.168.56.103:80

这样就表示ngnix安装成功了

2.添加自定义词库文件

1.在此之前, 我们先看看没添加自定义词库的效果

POST _analyze
{"analyzer": "ik_smart","text": "尚硅谷有一个乔碧萝老师"
}

响应数据

{"tokens" : [{"token" : "尚","start_offset" : 0,"end_offset" : 1,"type" : "CN_CHAR","position" : 0},{"token" : "硅谷","start_offset" : 1,"end_offset" : 3,"type" : "CN_WORD","position" : 1},{"token" : "有","start_offset" : 3,"end_offset" : 4,"type" : "CN_CHAR","position" : 2},{"token" : "一个","start_offset" : 4,"end_offset" : 6,"type" : "CN_WORD","position" : 3},{"token" : "乔","start_offset" : 6,"end_offset" : 7,"type" : "CN_CHAR","position" : 4},{"token" : "碧","start_offset" : 7,"end_offset" : 8,"type" : "CN_CHAR","position" : 5},{"token" : "萝","start_offset" : 8,"end_offset" : 9,"type" : "CN_CHAR","position" : 6},{"token" : "老师","start_offset" : 9,"end_offset" : 11,"type" : "CN_WORD","position" : 7}]
}

可以看到默认尚硅谷, 乔碧萝这个两个词语是无法识别的

2.在挂载目录/mydata/ngnix/html里创建es文件夹, 并在里面创建词库文件words.txt

words.txt内容就是添加我们的自定义词语

尚硅谷
乔碧萝

这里再次提醒一下
要修改ik分词器的配置文件 IKAnalyzer.cfg.xml, 文件可以通过挂载目录
/mydata/elasticsearch/plugins/ik/config 修改(也可以进入docker容器内部修改)

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
<properties><comment>IK Analyzer 扩展配置</comment><!--用户可以在这里配置自己的扩展字典 --><entry key="ext_dict"></entry><!--用户可以在这里配置自己的扩展停止词字典--><entry key="ext_stopwords"></entry><!--用户可以在这里配置远程扩展字典, ip地址要对应自己的linux虚拟机的ip --><entry key="remote_ext_dict">http://192.168.56.103:80/es/words.txt</entry><!--用户可以在这里配置远程扩展停止词字典--><!-- <entry key="remote_ext_stopwords">words_location</entry> -->
</properties>

这里解释一下 http://192.168.56.103:80/es/words.txt
nginx会默认把 http://192.168.56.103:80(或 http://192.168.56.103) 映射到ngnix/html文件夹
/es/words.txt就是我们的词库文件在ngnix/html文件夹中的位置

3.重启es

docker restart 容器id

3.测试

POST _analyze
{"analyzer": "ik_smart","text": "尚硅谷有一个乔碧萝老师"
}

响应数据

{"tokens" : [{"token" : "尚硅谷","start_offset" : 0,"end_offset" : 3,"type" : "CN_WORD","position" : 0},{"token" : "有","start_offset" : 3,"end_offset" : 4,"type" : "CN_CHAR","position" : 1},{"token" : "一个","start_offset" : 4,"end_offset" : 6,"type" : "CN_WORD","position" : 2},{"token" : "乔碧萝","start_offset" : 6,"end_offset" : 9,"type" : "CN_WORD","position" : 3},{"token" : "老师","start_offset" : 9,"end_offset" : 11,"type" : "CN_WORD","position" : 4}]
}

可以看到自定义分词成功了