hanlp分词插件

HanLP是一款免费开源（Apache License 2.0协议）中文语义分词工具，它提供中文分词、词性标注、命名实体识别、依存句法分析、语义依存分析、新词发现、关键词短语提取、自动摘要、文本分类聚类、拼音简繁转换、自然语言处理等功能。
Elasticsearch hanlp分词插件是基于HanLP开发的Elasticsearch分词插件，能够提供中文语义分词，词性标注等功能。
Elasticsearch默认的分词插件只支持英文，中文的分词效果比较差，目前比较热门的中文分词插件有ik分词、jieba分词、hanlp分词几种，重准确率、性能等方面来说hanlp还是比较有优势的详细信息可以看这里中文分词器对比

插件安装

Elasticsearch插件安装方式有两种，在线安装、离线安装

在线安装

进入Elasticsearch安装目录比如 /usr/share/elasticsearch/，执行命令：

[root@eda525b6199e elasticsearch]# cd /usr/share/elasticsearch
[root@eda525b6199e elasticsearch]#./bin/elasticsearch-plugin install https://github.com/KennFalcon/elasticsearch-analysis-hanlp/releases/download/v7.5.0/elasticsearch-analysis-hanlp-7.5.0.zip

其中的版本号做对应修改，一般和Elasticsearch版本号保存一致，安装成功后验证

[root@eda525b6199e elasticsearch]#./bin/elasticsearch-plugin list

显示如下，表示安装成功

[root@eda525b6199e elasticsearch]# ./bin/elasticsearch-plugin list
analysis-hanlp

此时我们可以在Elasticsearch的安装目录下的plugins目录下看到一个名问analysis-hanlp文件夹

离线安装

首先下载Elasticsearch hanlp插件安装包，下载地址网盘密码i0o7，下载和Elasticsearch一样得版本
安装
将下载好的zip文件放到指定目录，如果/usr/share/elasticsearch/目录，通过下述命令安装

[root@eda525b6199e elasticsearch]# cd /usr/share/elasticsearch
[root@eda525b6199e elasticsearch]#./bin/elasticsearch-plugin install file:/usr/share/elasticsearch/elasticsearch-analysis-hanlp-7.5.0.zip

file: 后面是zip文件的绝对路径，否则安装可能不成功。
安装成功后验证方式和在线安装一样

安装数据包

Hanlp是基于语义的分词，采用机器学习算法，通过机器学习算法采集出大量的数据文件，直接安装的插件只包含默认的数据包，如果需要安装完整的数据包，可以从这里下载，下载完成后放到elasticsearch 安装目录下的/plugins/analysis-hanlp 目录下，重启Elasticsearch即可

同义词配置

Elasticsearch提供同义词配置（不是hanlp的），在新建索引的时候可以指定同义词文件，或者直接在索引配置文件中指定同义词
在hanlp插件的安装目录下我们可以找到其采集的同义词文件：
在Elasticsearch安装目录下的config目录下新建文件夹synonym文件夹，在此文件夹下新建文件名问synonmy.txt，内容如下：

人类, 生人, 全人类
人手, 人员, 人口, 人丁, 口, 食指
劳力, 劳动力, 工作者
匹夫, 个人
家伙, 东西, 货色, 厮, 崽子, 兔崽子, 狗崽子, 小子, 杂种, 畜生, 混蛋, 王八蛋, 竖子, 鼠辈, 小崽子
每人, 各人, 每位
该人, 此人
群众, 大众, 公众, 民众, 万众, 众生, 千夫
良民, 顺民
遗民, 贱民, 流民, 游民, 顽民, 刁民, 愚民, 不法分子, 孑遗
人丛, 人群, 人海, 人流, 人潮

一换行分割，同义词之间用逗号分割，保存为utf-8格式
新建索引，配置如下：

{"aliases": {},"mappings": {"properties": {"content": {"type": "text","fields": {"keyword": {"type": "keyword","ignore_above": 256}},"analyzer": "hanlp_index","search_analyzer": "hanlp_nlp"},"createTime": {"type": "date","fields": {"keyword": {"type": "keyword","ignore_above": 256}}},"documentName": {"type": "text","fields": {"keyword": {"type": "keyword","ignore_above": 256}},"analyzer": "hanlp_index","search_analyzer": "hanlp_nlp"},"id": {"type": "text","fields": {"keyword": {"type": "keyword","ignore_above": 256}},"analyzer": "standard"},"updateTime": {"type": "date","fields": {"keyword": {"type": "keyword","ignore_above": 256}}}}},"settings": {"index": {"number_of_shards": "1","analysis": {"filter":{"hanlp_synonym":{"ignore_case":"true","expand":"true","type":"synonym","synonyms_path":"synonym/synonym.txt"},"hanlp_stop":{"type": "stop","stopwords_path": "stop/stopwords.txt"}},"analyzer": {"hanlp_index": {"filter": ["lowercase","hanlp_stop","hanlp_synonym"],"char_filter": ["html_strip"],"tokenizer": "hanlp_index"},"hanlp_search": {"filter": ["lowercase","hanlp_stop","hanlp_synonym"],"char_filter": ["html_strip"],"tokenizer": "hanlp_nlp"}}},"number_of_replicas": "1"}}
}

在索引配置文件的setting配置中定义一个同义词的filter，名称可以随便取，但是使用的时候别用错

Elasticsearch学习笔记（三）安装hanlp中文分词插件及同义词配置相关推荐

ElasticSearch学习笔记（安装与使用）
问题一.ElasticSearch是什么?有什么用处? 答:截至2018年12月28日,从ElasticSearch官网(https://www.elastic.co/cn/products)上,得知 ...
ElasticSearch学习笔记之十一 Anayle API和IK分词器
ElasticSearch学习笔记之十一 Anayle API和IK分词器 Anayle API IK分词器 IK分词器版本支持安装下载或者编译选择一选择二重启ElasticSearch I ...
Elasticsearch：hanlp 中文分词器
HanLP 中文分词器是一个开源的分词器,是专为Elasticsearch而设计的.它是基于HanLP,并提供了HanLP中大部分的分词方式.它的源码位于: https://github.com/Ke ...
homeassistant mysql_学习笔记篇三：HomeAssistant学习笔记docker安装的ha更换数据库
学习笔记篇三:HomeAssistant学习笔记docker安装的ha更换数据库 2018-11-15 12:06:58 4点赞 18收藏 3评论是返乡过年?还是就地过年?最新一届#双面过节指南# ...
ElasticSearch学习笔记-ngram、中文拼音、简繁体搜索记录
ElasticSearch版本:elasticsearch-7.3.0 ElasticSearch相关插件安装可以参考: ElasticSearch学习笔记-插件安装记录_人生偌只如初见的博客-CSD ...
黑马程序员--分布式搜索ElasticSearch学习笔记
写在最前黑马视频地址:https://www.bilibili.com/video/BV1LQ4y127n4/ 想获得最佳的阅读体验,请移步至我的个人博客 SpringCloud学习笔记消息队列M ...
jieba库 python2.7 安装_Python中文分词工具大合集：安装、使用和测试
这篇文章事实上整合了前面两篇文章的相关介绍,同时添加一些其他的Python中文分词相关资源,甚至非Python的中文分词工具,仅供参考. 首先介绍之前测试过的8款中文分词工具,这几款工具可以直接在AI ...
基于 HanLP 的 ES 中文分词插件
一.分词插件 1.分词器概念在 ES 中,分词器的作用是从文本中提取出若干词元(token)来支持索引的存储和搜索,分词器(Analyzer)由一个分解器(Tokenizer).零个或多个词元过滤器 ...
ElasticSearch学习笔记（一）
ElasticSearch学习环境准备 JDK 1.8 Node.js 相关文件 (Windows 练习的话,使用 6.2.2 版本较为稳定, 否则 Kibana 可能会遇到一些启动报错问题) 资源 ...

Elasticsearch学习笔记（三）安装hanlp中文分词插件及同义词配置

目录