Elasticsearch 入门到精通-Ansj分词器的安装和使用
一、版本和对应关系
plugin | elasticsearch |
---|---|
7.6.2 | 7.6.2 |
7.7.0 | 7.7.0 |
7.7.1 | 7.7.1 |
7.8.0 | 7.8.0 |
7.8.1 | 7.8.1 |
7.9.0 | 7.9.0 |
7.9.1 | 7.9.1 |
7.9.2 | 7.9.2 |
7.9.3 | 7.9.3 |
二、安装步骤
1、下载安装ES对应Plugin Release版本
a. GitHub - NLPchina/elasticsearch-analysis-ansj
b. 解压 elasticsearch-analysis-ansj-7.7.1-release.zip 到 plugins 目录下
c.将 ansj.cfg.xml 拷贝到 es 对应的 config 目录下
d.在es config 同级目录创建 library目录用于放置分词数据,将词库信息放入该目录
自定义词库(default.dic),停词词库(stop.dic),歧义词词库(ambiguity.dic),同义词词库(synonyms.dic)
2、重启Elasticsearch
三、分词方式
1、分词方式解析
base_ansj |
基本分词 |
index_ansj | 索引分词,拆分的最细 |
query_ansj | 查询分词 |
dic_ansj | 用户自定义分词 |
nlp_ansj | 自然语言分词 |
2、样例
POST _analyze
{"text": ["美国阿拉斯加州发生8.0级地震"],"analyzer": "index_ansj"
}
结果
{"tokens" : [{"token" : "美国","start_offset" : 0,"end_offset" : 2,"type" : "ns","position" : 0},{"token" : "美","start_offset" : 0,"end_offset" : 1,"type" : "b","position" : 1},{"token" : "国","start_offset" : 1,"end_offset" : 2,"type" : "n","position" : 2},{"token" : "阿拉斯加州","start_offset" : 2,"end_offset" : 7,"type" : "nsf","position" : 3},{"token" : "阿拉斯加","start_offset" : 2,"end_offset" : 6,"type" : "nsf","position" : 4},{"token" : "阿拉斯","start_offset" : 2,"end_offset" : 5,"type" : "nsf","position" : 5},{"token" : "阿拉","start_offset" : 2,"end_offset" : 4,"type" : "r","position" : 6},{"token" : "阿","start_offset" : 2,"end_offset" : 3,"type" : "b","position" : 7},{"token" : "拉斯","start_offset" : 3,"end_offset" : 5,"type" : "nrf","position" : 8},{"token" : "拉","start_offset" : 3,"end_offset" : 4,"type" : "v","position" : 9},{"token" : "斯","start_offset" : 4,"end_offset" : 5,"type" : "b","position" : 10},{"token" : "加州","start_offset" : 5,"end_offset" : 7,"type" : "ns","position" : 11},{"token" : "加","start_offset" : 5,"end_offset" : 6,"type" : "v","position" : 12},{"token" : "州","start_offset" : 6,"end_offset" : 7,"type" : "n","position" : 13},{"token" : "发生","start_offset" : 7,"end_offset" : 9,"type" : "v","position" : 14},{"token" : "发","start_offset" : 7,"end_offset" : 8,"type" : "v","position" : 15},{"token" : "生","start_offset" : 8,"end_offset" : 9,"type" : "v","position" : 16},{"token" : "8.0级","start_offset" : 9,"end_offset" : 13,"type" : "mq","position" : 17},{"token" : "0","start_offset" : 11,"end_offset" : 12,"type" : "w","position" : 18},{"token" : "级","start_offset" : 12,"end_offset" : 13,"type" : "q","position" : 19},{"token" : "地震","start_offset" : 13,"end_offset" : 15,"type" : "n","position" : 20},{"token" : "地","start_offset" : 13,"end_offset" : 14,"type" : "ude2","position" : 21},{"token" : "震","start_offset" : 14,"end_offset" : 15,"type" : "vi","position" : 22}]
}
四、ansj暴露的api整理
请求链接 | 描述 |
/_cat/ansj | 执行分词 |
/_cat/ansj/config | 显示全部配置 |
/_ansj/flush/config | 刷新全部配置 |
/_ansj/flush/config/single | 执行刷新配置 |
/_ansj/flush/dic | 更新全部词典 |
/_ansj/flush/dic/single | 执行更新词典 |
http://127.0.0.1:9200/_ansj/flush/dic/single?key=dic
/_cat/ansj 执行分词
例子:/_cat/ansj?text=中国&type=index_ansj&dic=dic&stop=stop&ambiguity=ambiguity&synonyms=synonyms
其中text和type是必须传的:text为需要进行分词的语句,type是分词类型,支持如下
Elasticsearch 入门到精通-Ansj分词器的安装和使用相关推荐
- ES入门学习:ElasticSearch、Kibana、ik分词器的安装、简单使用及SpringBoot集成
前言 es是采用Java语言开发,因此,想要安装运行es需要提前准备好jdk环境,关于linux配置jdk在前文linux配置jdk 本文主要介绍es的安装.kibana的安装和简单使用及ik分词器的 ...
- Elasticsearch 入门 核心概念 数据结构 分词器 javaAPI
ElasticSearch 1-今日内容 2-初识ElasticSearch 2.1-基于数据库查询的问题 2.2-倒排索引 2.2.1 评分TF/IDF/BM25计算 2.3-ES存储和查询的原理 ...
- Elasticsearch 分布式搜索引擎 -- elasticsearch-analysis-pinyin 拼音分词器的安装和介绍
1. 拼音分词器 要实现根据字母做补全,就必须对文档按照拼音分词.在GitHub上恰好有elasticsearch的 拼音分词插件. 7.12.1 版本(因为我的es是7.12.1版本) 1.1.1 ...
- word分词器、ansj分词器、mmseg4j分词器、ik-analyzer分词器分词效果评估(转)
转自:http://yangshangchuan.iteye.com/blog/2056537(有代码可下载) word分词器.ansj分词器.mmseg4j分词器.ik-analyzer分词器分词效 ...
- word分词器、ansj分词器、mmseg4j分词器、ik-analyzer分词器分词效果评估
2019独角兽企业重金招聘Python工程师标准>>> word分词是一个Java实现的中文分词组件,提供了多种基于词典的分词算法,并利用ngram模型来消除歧义. 能准确识别英文. ...
- 使用Docker 安装Elasticsearch、Elasticsearch-head、IK分词器 和使用
使用Docker 安装Elasticsearch.Elasticsearch-head.IK分词器 和使用 原文:使用Docker 安装Elasticsearch.Elasticsearch-head ...
- Elasticsearch(二) ik分词器的安装 以及 自定义分词
ik分词器作为elasticsearch的一个插件,则是安装在es插件中. ik分词器的安装 1,创建ik分词目录上传与es相同版本的ik分词器插件,不同版本可能es启动 报错 在elasticsea ...
- 04.ElasticSearch之IK分词器的安装与使用
ElasticSearch之IK分词器的安装与使用 前言 安装 离线安装 在线安装 ik分词器测试 扩展(停用)词(典) 测试数据 概念 配置词典 1.修改配置文件 2.新建词典 3.自定义内容 4. ...
- 跟益达学Solr5之使用Ansj分词器
摘要: OK,直接开门见山,不绕弯子啦!基于上篇博客,我们知道了在Solr中配置分词器有两种方式,一种是直接配置分词器类,比如: Xml代码 <fieldType name= ...
最新文章
- MacOS安装zsh插件zsh-autosuggestion(自动命令补全和建议)
- cesium坡度坡向分析_景观设计分析图制作技巧到底是什么?
- 论文浅尝 | 基于异质图交互模型进行篇章级事件抽取
- javaBean和jsp应用
- 盖茨每一秒能赚多少钱,他现在最担心的是什么?
- Linux 下 Oracle 内核参数优化
- 行政区域村级划分数据库_最新行政区划代码省市区三级 乡镇街道四级 村五级 数据库(2020年11月版 )...
- bash历史命令数_如何使用Bash历史记录命令
- python内置函数map_Python内置函数(34)——map
- 百度云2019落地第一枪打响:两款智能边缘硬件,让城市环卫、农药喷洒都AI起来...
- 设计模式之——桥接模式
- Busybox是什么?
- Unity3d之MonoBehaviour的可重写函数整理
- Java-断点下载(分片下载)
- 谷歌地图解析及ArcEngine加载谷歌地图方法
- 【Pigeon源码阅读】服务调用请求流程解析(六)
- Speech recognition模型:RNN Transducer(RNN-T)
- Justinmind使用教程(2)——计算表达式及条件使用方法
- linux终端命令行删除当前光标之后内容ctrl +k
- IE6浏览器不支持固定定位(position:fixed)解决方案