Elastic Search:(二)分词器
目录
1.分词器
1.1 内置分词器的介绍和使用
1.1.1 概念
1.1.2 standard
1.1.3 simple
1.1.4 whitespace
1.1.5 stop
1.1.6 pattern
1.2 中文分词器
1.2.1 下载安装
1.2.2 使用
1.分词器
1.1 内置分词器的介绍和使用
1.1.1 概念
分词器就是将用户输入的一段文本,按照一定的逻辑,分析成多个词语的一种工具。分词器均使用POST请求,使用_analyze指令。
1.1.2 standard
standard analyze标准分词器是默认分词器,在未指定分词器时,系统默认使用该分词器。
例:
{"analyzer": "standard","text":"This is the standard analyzer!"
}
得到结果:
{"tokens": [{// 返回的值有:/*token:分割的单词start_offset:起始偏移量end_offset:终止偏移量type:类型position:第几个单词*/"token": "this","start_offset": 0,"end_offset": 4,"type": "<ALPHANUM>","position": 0},{"token": "is","start_offset": 5,"end_offset": 7,"type": "<ALPHANUM>","position": 1},{"token": "the","start_offset": 8,"end_offset": 11,"type": "<ALPHANUM>","position": 2},{"token": "standard","start_offset": 12,"end_offset": 20,"type": "<ALPHANUM>","position": 3},{"token": "analyzer","start_offset": 21,"end_offset": 29,"type": "<ALPHANUM>","position": 4}]
}
从上述例子可知,标准分词器会自动省略标点符号。
1.1.3 simple
simple 分词器只识别字母字符,并将所有字母字符转成小写字母,非字母字符会被删除掉。例如:
{"analyzer": "simple","text":"This is the simple analyzer! 123 2"
}
{"tokens": [{"token": "this","start_offset": 0,"end_offset": 4,"type": "word","position": 0},{"token": "is","start_offset": 5,"end_offset": 7,"type": "word","position": 1},{"token": "the","start_offset": 8,"end_offset": 11,"type": "word","position": 2},{"token": "simple","start_offset": 12,"end_offset": 18,"type": "word","position": 3},{"token": "analyzer","start_offset": 19,"end_offset": 27,"type": "word","position": 4}]
}
如上述所示,text中的数字、标点符号等均删除掉,剩余字母字符均为小写字母。
1.1.4 whitespace
whitespace按照空格进行text的分割,不会删除任何字符。
{"analyzer": "whitespace","text":"This is the simple analyzer! 123 2"
}
得到结果:
{"tokens": [{"token": "This","start_offset": 0,"end_offset": 4,"type": "word","position": 0},{"token": "is","start_offset": 5,"end_offset": 7,"type": "word","position": 1},{"token": "the","start_offset": 8,"end_offset": 11,"type": "word","position": 2},{"token": "simple","start_offset": 12,"end_offset": 18,"type": "word","position": 3},{"token": "analyzer!","start_offset": 19,"end_offset": 28,"type": "word","position": 4},{"token": "123","start_offset": 29,"end_offset": 32,"type": "word","position": 5},{"token": "2","start_offset": 33,"end_offset": 34,"type": "word","position": 6}]
}
1.1.5 stop
stop分词器与simple分词器类似,但是增加了删除停止词的功能,默认使用english停止词(默认删除冠词、系动词和介词等)。
例如:
{"analyzer": "stop","text":"This is the simple analyzer!"
}
得到结果:
{"tokens": [{"token": "simple","start_offset": 12,"end_offset": 18,"type": "word","position": 3},{"token": "analyzer","start_offset": 19,"end_offset": 27,"type": "word","position": 4}]
}
1.1.6 pattern
正则表达式分割文本,默认使用\W(非单词字符)
1.2 中文分词器
内置分词器用于英文字符的分割,中文则会分割成单独的汉字,不符合中国人的习惯。而IK分词器作为一款智能的中文分词器,很好的解决了上述问题。
1.2.1 下载安装
- 输入github地址:https://github.com/medcl/elasticsearch-analysis-ik/releases下载需要的IK分词器版本(IK分词器要与elastic search版本对应)
- 将下载完成IK分词器解压到elastic search根目录下的plugins中。
1.2.2 使用
重启elastic search生效。效果如下:
Elastic Search:(二)分词器相关推荐
- Elastic Search之分词
分词(Analysis):将文本切分为一系列单词的过程,比如 "美国留给伊拉克的是个烂摊子吗?"经过分词后的后果为:美国.伊拉克.烂摊子. 分词器(Analyzer):elasti ...
- Elastic search常用分词 和 多字段搜索优化
分词器 ES的分词器把文本解析为一个一个的词,写入倒排索引中 filter过滤器 lemmagen 词性还原 stop 停顿词 shingle 临近词n个作为一组查询 analyzer分词器 stan ...
- Ik分词器(自定义分词-mysql)
引言:ik分词器的分词范围不够广泛.某些特定行业的专业用语分词能力就不够了,此时就需要自定义分词,与停顿词. 1.下载ik分词器源码 git地址:https://github.com/medcl/el ...
- debian 10 buster 安装配置 elastic search 和 中文, 拼音分词
debian 10 buster 安装配置 es 和 中文, 拼音分词 安装 测试 配置 分词 IK 分词器 拼音分词 一个完整的动态映射模板(包含geo, pinyin, IK) 安装 1, 安装j ...
- elastic ik分词搜索_php环境下使用elasticSearch+ik分词器进行全文搜索
php中文网最新课程 每日17点准时技术干货分享 首先需要说明的一点是,如果需要启用ik分词器,那么分词器的版本必须与es版本一致,即6.3.0的分词器需要同样6.3.0版本的es支持. 安装java ...
- Elasticsearch(二) ik分词器的安装 以及 自定义分词
ik分词器作为elasticsearch的一个插件,则是安装在es插件中. ik分词器的安装 1,创建ik分词目录上传与es相同版本的ik分词器插件,不同版本可能es启动 报错 在elasticsea ...
- solr(二):Solr配置中文分词器IKAnalyzer2012FF_u1
一.目的 通过使用比较高效的IKAnalyzer2012FF_u1分词器对中文内容进行检索分词,利于最终的全文检索. 二.环境 1.CentOS6.4 2.CDH5.7.0 3.solr-4.10.3 ...
- Elasticsearch - 文档分析,IK分词器;文档冲突(十二)
阅读本文前可先参考 Elasticsearch - Elasticsearch详解:安装部署(一)_MinggeQingchun的博客-CSDN博客 https://blog.csdn.net/Min ...
- [Linux]Linux下安装和配置solr/tomcat/IK分词器 详细实例二.
为了更好的排版, 所以将IK分词器的安装重启了一篇博文, 大家可以接上solr的安装一同查看. [Linux]Linux下安装和配置solr/tomcat/IK分词器 详细实例一: http://w ...
最新文章
- ENJOYLink欢联,以独创技术满足数据中心布线
- java8学习:用流收集数据
- git pull问题“error: Your local changes to the following files would be overwritten by merge”解决方案
- 3_电子商务开发模型与java的关系_计算机网络与软件工程专业作业答案
- Android Open Accessory (AOA)
- java nio 文件_Java nio 的文件处理
- P5643-[PKUWC2018]随机游走【min-max容斥,dp】
- vm虚拟机安装_虚拟机 --- 安装VM(一)
- 训练日志 2019.1.26
- 银行对公业务结构图梳理
- 无法打开预编译头文件的解决方法及预编译头原理[ZZ] 转
- 测试游戏平均帧率的软件,游戏帧数,游戏帧数测试软件
- bulk insert java_从JAVA插入SQL Server时,我可以获得“BULK INSERT”般的速度吗?
- 百度云API怎么使用
- 如何获取股票数据接口?
- 2017年电力职称计算机考试题,2017年职称计算机考试Excel试题(1)
- 【Mac】 自带的播放器quicktimeplayer 如何带声音2倍速播放
- 人生十个阶段,每七年周期变化
- 理解Golang中的[]interface{}和interface{}
- JavaEE学习记录Day08、09、10
热门文章
- 一、PostgreSQL软件安装
- java aop面试_我想知道Spring在面试中应该怎么介绍,以及如何介绍他的aop?
- 基于opencv3.0和zbar下条形码和二维码的识别与解码
- 树莓派 raspbian 系统常用命令
- Oracle中添加删除主键的方法(转)
- 香港个人银行开户会问什么问题,怎么回答?
- marquee参数详解
- 苏亚星显示没有登录的服务器,VOD直播工具使用 直播站管理工具的使用 苏亚星VOD点播(直播)系统.doc...
- android网络优化,Android性能优化----网络优化
- 正能量励志歌曲十大榜单盘点