php elasticsearch ik,elasticsearch 中文分词(elasticsearch-analysis-ik)安装
elasticsearch 中文分词(elasticsearch-analysis-ik)安装
在elasticsearch的plugins目录下,创建ik目录
cd /usr/local/elasticsearch-6.3.0/plugins
mkdir ik
将解压的内容,放入其中
重新启动elasticsearch服务
elasticsearch restart
这个时候中文分词就生效了,数据重新插入即可
GET /megacorp/employee/_search
{
"query" : {
"match" : {
"about" : "程序员 编程"
}
}
}
搜索结果
{
"took": 8,
"timed_out": false,
"_shards": {
"total": 5,
"successful": 5,
"skipped": 0,
"failed": 0
},
"hits": {
"total": 1,
"max_score": 1.654172,
"hits": [
{
"_index": "megacorp",
"_type": "employee",
"_id": "2",
"_score": 1.654172,
"_source": {
"first_name": "张",
"last_name": "三",
"age": 24,
"about": "一个PHP程序员,热爱编程,热爱生活,充满激情。",
"interests": [
"英雄联盟"
]
}
}
]
}
}
或者通过(elasticsearch-plugin)在线安装,速度有点慢。
./bin/elasticsearch-plugin install https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v6.3.0/elasticsearch-analysis-ik-6.3.0.zip
-> Downloading https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v6.3.0/elasticsearch-analysis-ik-6.3.0.zip
[=================================================] 100%??
-> Installed analysis-ik
发现多了一个文件夹
使用
GET _analyze?pretty
{
"analyzer": "ik_smart",
"text": "中华人民共和国国歌"
}
{
"tokens": [
{
"token": "中华人民共和国",
"start_offset": 0,
"end_offset": 7,
"type": "CN_WORD",
"position": 0
},
{
"token": "国歌",
"start_offset": 7,
"end_offset": 9,
"type": "CN_WORD",
"position": 1
}
]
}
再一个例子
GET _analyze?pretty
{
"analyzer": "ik_smart",
"text": "王者荣耀是最好玩的游戏"
}
{
"tokens": [
{
"token": "王者",
"start_offset": 0,
"end_offset": 2,
"type": "CN_WORD",
"position": 0
},
{
"token": "荣耀",
"start_offset": 2,
"end_offset": 4,
"type": "CN_WORD",
"position": 1
},
{
"token": "是",
"start_offset": 4,
"end_offset": 5,
"type": "CN_CHAR",
"position": 2
},
{
"token": "最",
"start_offset": 5,
"end_offset": 6,
"type": "CN_CHAR",
"position": 3
},
{
"token": "好玩",
"start_offset": 6,
"end_offset": 8,
"type": "CN_WORD",
"position": 4
},
{
"token": "的",
"start_offset": 8,
"end_offset": 9,
"type": "CN_CHAR",
"position": 5
},
{
"token": "游戏",
"start_offset": 9,
"end_offset": 11,
"type": "CN_WORD",
"position": 6
}
]
}
php elasticsearch ik,elasticsearch 中文分词(elasticsearch-analysis-ik)安装相关推荐
- ElasticSearch中的中文分词详解
1.什么是分词: 分词就是指将一个文本转化成一系列单词的过程,也叫文本分析,在Elasticsearch中称之为Analysis. 举例:我是好学生 --> 我/是/好学生 2.分词API 2. ...
- php es中文分词,Elasticsearch搜索中文分词优化
Elasticsearch 中文搜索时遇到几个问题: 当搜索关键词如:"人民币"时,如果分词将"人民币"分成"人","民" ...
- 采访IK Analyzer 中文分词器开源项目作者林良益(十三)
转自: http://www.iteye.com/magazines/43-ik-analyzer 众所周知,全文搜索几乎已经成为每个网站的必须提供的基本功能之一,用Lucene构造一个"索 ...
- Elasticsearch 7.X 中文分词器 ik 使用,及词库的动态扩展
一.ik中文分词器 上篇文章我们学习了ES集群分片和水平扩容,前面再使用的时候应该就会发现,在做match 匹配时,默认会进行分词,但当查询内容是中文时,分词效果是一个字被认定了一个词,这显然不符合我 ...
- ElasticSearch 中的中文分词器该怎么玩?_03
内置分词器 ElasticSearch 核心功能就是数据检索,首先通过索引将文档写入 es.查询分析则主要分为两个步骤: 词条化:分词器将输入的文本转为一个一个的词条流. 过滤:比如停用词过滤器会从词 ...
- ElasticSearch 中的中文分词器以及索引基本操作详解
文章目录 1.ElasticSearch 分词器介绍 1.1 内置分词器 1.2 中文分词器 1.2.1 安装 1.2.2 测试 1.2.3 自定义扩展词库 1.2.3.1 本地自定义 1.2.3.2 ...
- docker自定义elasticsearch镜像——集成中文分词器smartcn
前言... 翻遍百度.谷歌.bing也没找到docker下给elasticsearch安装smartcn的资料,全是IK和拼音的,只好拿出我这只会几个简单命令的本事参考.观摩.尝试...参考.观摩.尝 ...
- Elasticsearch:hanlp 中文分词器
HanLP 中文分词器是一个开源的分词器,是专为Elasticsearch而设计的.它是基于HanLP,并提供了HanLP中大部分的分词方式.它的源码位于: https://github.com/Ke ...
- elasticsearch基于smartcn中文分词查询
在es的主页,我们新建索引film2...... 然后映射的时候,指定smartcn分词: post http://192.168.19.128:9200/film2/_mapping/dongzuo ...
最新文章
- 企业融入租时代 谋求轻资产化高效运营
- 如何去掉手机php,dedecms怎么关闭手机版
- linux多线程编写哲学家,Linux系统编程(三) ------ 多线程编程
- python预测随机数据_随机森林预测
- 2012服务器文件加密,Windows Server 2012安全方面的改变_服务器评测与技术-中关村在线...
- keil4如何设置自动缩进_如何设置私聊自动回复?
- 牛客网(剑指offer) 第十五题 反转链表
- 第2章-神经网络的数学基础(笔记)
- php二分查找算法时间复杂度,一个运用二分查找算法的程序的时间复杂度是什么...
- Linux block
- Windows 10 再爆 Bug;罗永浩怼苹果失去灵魂;马化腾回应系 PS | CSDN 极客头条
- android控制软键盘显示与隐藏
- Windows10系统JDK下载和安装
- Java日期查询:日、周、旬、月、季度、年等时间操作
- plc实验报告流程图_plc实验报告
- 计算机等级成绩科目代码65,北京计算机等级考试成绩评定标准是怎样的
- html网页设置音频,HTML教程 - 插入声音和音乐到HTML页面里
- TFTLCD屏幕实验
- 计算机主机的拆卸的注意事项,如何进行电脑主机除尘及板卡维护
- java并法库_沈阳法库县婚姻挽回该怎么做,异地恋相处
热门文章
- 现实世界充满了bug_为啥程序会有bug?
- Linux 服务器更换主板后,网卡识别失败的处理方法
- R语言:聚类分析hclust
- list存入mysql乱序_MySQL案例-并行复制乱序提交引起的同步异常
- R语言data.table导入数据实战:data.table中编写函数并使用SD数据对象
- 解决pandas:ValueError: Cannot convert non-finite values (NA or inf) to integer
- R语言使用ggplot2包使用geom_boxplot函数绘制基础分组箱图(设置异常值的形状、颜色)实战
- R语言ggplot2可视化分面图(faceting):自定义分面图可视化、ggplot2可视化分面图并移除分面图之间的边框线条(Remove Panel Border Lines in a facet
- R语言ggplot2可视化:可视化饼图分面图并在图中添加数据标签
- 如何获取数据库中标的所有字段和数据类型?