elasticsearch 中文分词(elasticsearch-analysis-ik)安装

在elasticsearch的plugins目录下,创建ik目录

cd /usr/local/elasticsearch-6.3.0/plugins

mkdir ik

将解压的内容,放入其中

重新启动elasticsearch服务

elasticsearch restart

这个时候中文分词就生效了,数据重新插入即可

GET /megacorp/employee/_search

{

"query" : {

"match" : {

"about" : "程序员 编程"

}

}

}

搜索结果

{

"took": 8,

"timed_out": false,

"_shards": {

"total": 5,

"successful": 5,

"skipped": 0,

"failed": 0

},

"hits": {

"total": 1,

"max_score": 1.654172,

"hits": [

{

"_index": "megacorp",

"_type": "employee",

"_id": "2",

"_score": 1.654172,

"_source": {

"first_name": "张",

"last_name": "三",

"age": 24,

"about": "一个PHP程序员,热爱编程,热爱生活,充满激情。",

"interests": [

"英雄联盟"

]

}

}

]

}

}

或者通过(elasticsearch-plugin)在线安装,速度有点慢。

./bin/elasticsearch-plugin install https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v6.3.0/elasticsearch-analysis-ik-6.3.0.zip

-> Downloading https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v6.3.0/elasticsearch-analysis-ik-6.3.0.zip

[=================================================] 100%??

-> Installed analysis-ik

发现多了一个文件夹

使用

GET _analyze?pretty

{

"analyzer": "ik_smart",

"text": "中华人民共和国国歌"

}

{

"tokens": [

{

"token": "中华人民共和国",

"start_offset": 0,

"end_offset": 7,

"type": "CN_WORD",

"position": 0

},

{

"token": "国歌",

"start_offset": 7,

"end_offset": 9,

"type": "CN_WORD",

"position": 1

}

]

}

再一个例子

GET _analyze?pretty

{

"analyzer": "ik_smart",

"text": "王者荣耀是最好玩的游戏"

}

{

"tokens": [

{

"token": "王者",

"start_offset": 0,

"end_offset": 2,

"type": "CN_WORD",

"position": 0

},

{

"token": "荣耀",

"start_offset": 2,

"end_offset": 4,

"type": "CN_WORD",

"position": 1

},

{

"token": "是",

"start_offset": 4,

"end_offset": 5,

"type": "CN_CHAR",

"position": 2

},

{

"token": "最",

"start_offset": 5,

"end_offset": 6,

"type": "CN_CHAR",

"position": 3

},

{

"token": "好玩",

"start_offset": 6,

"end_offset": 8,

"type": "CN_WORD",

"position": 4

},

{

"token": "的",

"start_offset": 8,

"end_offset": 9,

"type": "CN_CHAR",

"position": 5

},

{

"token": "游戏",

"start_offset": 9,

"end_offset": 11,

"type": "CN_WORD",

"position": 6

}

]

}

php elasticsearch ik,elasticsearch 中文分词(elasticsearch-analysis-ik)安装相关推荐

  1. ElasticSearch中的中文分词详解

    1.什么是分词: 分词就是指将一个文本转化成一系列单词的过程,也叫文本分析,在Elasticsearch中称之为Analysis. 举例:我是好学生 --> 我/是/好学生 2.分词API 2. ...

  2. php es中文分词,Elasticsearch搜索中文分词优化

    Elasticsearch 中文搜索时遇到几个问题: 当搜索关键词如:"人民币"时,如果分词将"人民币"分成"人","民" ...

  3. 采访IK Analyzer 中文分词器开源项目作者林良益(十三)

    转自: http://www.iteye.com/magazines/43-ik-analyzer 众所周知,全文搜索几乎已经成为每个网站的必须提供的基本功能之一,用Lucene构造一个"索 ...

  4. Elasticsearch 7.X 中文分词器 ik 使用,及词库的动态扩展

    一.ik中文分词器 上篇文章我们学习了ES集群分片和水平扩容,前面再使用的时候应该就会发现,在做match 匹配时,默认会进行分词,但当查询内容是中文时,分词效果是一个字被认定了一个词,这显然不符合我 ...

  5. ElasticSearch 中的中文分词器该怎么玩?_03

    内置分词器 ElasticSearch 核心功能就是数据检索,首先通过索引将文档写入 es.查询分析则主要分为两个步骤: 词条化:分词器将输入的文本转为一个一个的词条流. 过滤:比如停用词过滤器会从词 ...

  6. ElasticSearch 中的中文分词器以及索引基本操作详解

    文章目录 1.ElasticSearch 分词器介绍 1.1 内置分词器 1.2 中文分词器 1.2.1 安装 1.2.2 测试 1.2.3 自定义扩展词库 1.2.3.1 本地自定义 1.2.3.2 ...

  7. docker自定义elasticsearch镜像——集成中文分词器smartcn

    前言... 翻遍百度.谷歌.bing也没找到docker下给elasticsearch安装smartcn的资料,全是IK和拼音的,只好拿出我这只会几个简单命令的本事参考.观摩.尝试...参考.观摩.尝 ...

  8. Elasticsearch:hanlp 中文分词器

    HanLP 中文分词器是一个开源的分词器,是专为Elasticsearch而设计的.它是基于HanLP,并提供了HanLP中大部分的分词方式.它的源码位于: https://github.com/Ke ...

  9. elasticsearch基于smartcn中文分词查询

    在es的主页,我们新建索引film2...... 然后映射的时候,指定smartcn分词: post http://192.168.19.128:9200/film2/_mapping/dongzuo ...

最新文章

  1. 企业融入租时代 谋求轻资产化高效运营
  2. 如何去掉手机php,dedecms怎么关闭手机版
  3. linux多线程编写哲学家,Linux系统编程(三) ------ 多线程编程
  4. python预测随机数据_随机森林预测
  5. 2012服务器文件加密,Windows Server 2012安全方面的改变_服务器评测与技术-中关村在线...
  6. keil4如何设置自动缩进_如何设置私聊自动回复?
  7. 牛客网(剑指offer) 第十五题 反转链表
  8. 第2章-神经网络的数学基础(笔记)
  9. php二分查找算法时间复杂度,一个运用二分查找算法的程序的时间复杂度是什么...
  10. Linux block
  11. Windows 10 再爆 Bug;罗永浩怼苹果失去灵魂;马化腾回应系 PS | CSDN 极客头条
  12. android控制软键盘显示与隐藏
  13. Windows10系统JDK下载和安装
  14. Java日期查询:日、周、旬、月、季度、年等时间操作
  15. plc实验报告流程图_plc实验报告
  16. 计算机等级成绩科目代码65,北京计算机等级考试成绩评定标准是怎样的
  17. html网页设置音频,HTML教程 - 插入声音和音乐到HTML页面里
  18. TFTLCD屏幕实验
  19. 计算机主机的拆卸的注意事项,如何进行电脑主机除尘及板卡维护
  20. java并法库_沈阳法库县婚姻挽回该怎么做,异地恋相处

热门文章

  1. 现实世界充满了bug_为啥程序会有bug?
  2. Linux 服务器更换主板后,网卡识别失败的处理方法
  3. R语言:聚类分析hclust
  4. list存入mysql乱序_MySQL案例-并行复制乱序提交引起的同步异常
  5. R语言data.table导入数据实战:data.table中编写函数并使用SD数据对象
  6. 解决pandas:ValueError: Cannot convert non-finite values (NA or inf) to integer
  7. R语言使用ggplot2包使用geom_boxplot函数绘制基础分组箱图(设置异常值的形状、颜色)实战
  8. R语言ggplot2可视化分面图(faceting):自定义分面图可视化、ggplot2可视化分面图并移除分面图之间的边框线条(Remove Panel Border Lines in a facet
  9. R语言ggplot2可视化:可视化饼图分面图并在图中添加数据标签
  10. 如何获取数据库中标的所有字段和数据类型?