目录

1.分词器

1.1 内置分词器的介绍和使用

1.1.1 概念

1.1.2 standard

1.1.3 simple

1.1.4 whitespace

1.1.5 stop

1.1.6 pattern

1.2 中文分词器

1.2.1 下载安装

1.2.2 使用


1.分词器

1.1 内置分词器的介绍和使用

1.1.1 概念

分词器就是将用户输入的一段文本,按照一定的逻辑,分析成多个词语的一种工具。分词器均使用POST请求,使用_analyze指令。

1.1.2 standard

standard analyze标准分词器是默认分词器,在未指定分词器时,系统默认使用该分词器。

例:

{"analyzer": "standard","text":"This is the standard analyzer!"
}

得到结果:

{"tokens": [{// 返回的值有:/*token:分割的单词start_offset:起始偏移量end_offset:终止偏移量type:类型position:第几个单词*/"token": "this","start_offset": 0,"end_offset": 4,"type": "<ALPHANUM>","position": 0},{"token": "is","start_offset": 5,"end_offset": 7,"type": "<ALPHANUM>","position": 1},{"token": "the","start_offset": 8,"end_offset": 11,"type": "<ALPHANUM>","position": 2},{"token": "standard","start_offset": 12,"end_offset": 20,"type": "<ALPHANUM>","position": 3},{"token": "analyzer","start_offset": 21,"end_offset": 29,"type": "<ALPHANUM>","position": 4}]
}

 从上述例子可知,标准分词器会自动省略标点符号。

1.1.3 simple

simple 分词器只识别字母字符,并将所有字母字符转成小写字母,非字母字符会被删除掉。例如:

{"analyzer": "simple","text":"This is the simple analyzer! 123 2"
}
{"tokens": [{"token": "this","start_offset": 0,"end_offset": 4,"type": "word","position": 0},{"token": "is","start_offset": 5,"end_offset": 7,"type": "word","position": 1},{"token": "the","start_offset": 8,"end_offset": 11,"type": "word","position": 2},{"token": "simple","start_offset": 12,"end_offset": 18,"type": "word","position": 3},{"token": "analyzer","start_offset": 19,"end_offset": 27,"type": "word","position": 4}]
}

如上述所示,text中的数字、标点符号等均删除掉,剩余字母字符均为小写字母。

1.1.4 whitespace

whitespace按照空格进行text的分割,不会删除任何字符。

{"analyzer": "whitespace","text":"This is the simple analyzer! 123 2"
}

得到结果:

{"tokens": [{"token": "This","start_offset": 0,"end_offset": 4,"type": "word","position": 0},{"token": "is","start_offset": 5,"end_offset": 7,"type": "word","position": 1},{"token": "the","start_offset": 8,"end_offset": 11,"type": "word","position": 2},{"token": "simple","start_offset": 12,"end_offset": 18,"type": "word","position": 3},{"token": "analyzer!","start_offset": 19,"end_offset": 28,"type": "word","position": 4},{"token": "123","start_offset": 29,"end_offset": 32,"type": "word","position": 5},{"token": "2","start_offset": 33,"end_offset": 34,"type": "word","position": 6}]
}

1.1.5 stop

stop分词器与simple分词器类似,但是增加了删除停止词的功能,默认使用english停止词(默认删除冠词、系动词和介词等)。

例如:

{"analyzer": "stop","text":"This is the simple analyzer!"
}

得到结果:

{"tokens": [{"token": "simple","start_offset": 12,"end_offset": 18,"type": "word","position": 3},{"token": "analyzer","start_offset": 19,"end_offset": 27,"type": "word","position": 4}]
}

1.1.6 pattern

正则表达式分割文本,默认使用\W(非单词字符)

1.2 中文分词器

内置分词器用于英文字符的分割,中文则会分割成单独的汉字,不符合中国人的习惯。而IK分词器作为一款智能的中文分词器,很好的解决了上述问题。

1.2.1 下载安装

  1. 输入github地址:https://github.com/medcl/elasticsearch-analysis-ik/releases下载需要的IK分词器版本(IK分词器要与elastic search版本对应)       
  2. 将下载完成IK分词器解压到elastic search根目录下的plugins中。

1.2.2 使用

重启elastic search生效。效果如下:

Elastic Search:(二)分词器相关推荐

  1. Elastic Search之分词

    分词(Analysis):将文本切分为一系列单词的过程,比如 "美国留给伊拉克的是个烂摊子吗?"经过分词后的后果为:美国.伊拉克.烂摊子. 分词器(Analyzer):elasti ...

  2. Elastic search常用分词 和 多字段搜索优化

    分词器 ES的分词器把文本解析为一个一个的词,写入倒排索引中 filter过滤器 lemmagen 词性还原 stop 停顿词 shingle 临近词n个作为一组查询 analyzer分词器 stan ...

  3. Ik分词器(自定义分词-mysql)

    引言:ik分词器的分词范围不够广泛.某些特定行业的专业用语分词能力就不够了,此时就需要自定义分词,与停顿词. 1.下载ik分词器源码 git地址:https://github.com/medcl/el ...

  4. debian 10 buster 安装配置 elastic search 和 中文, 拼音分词

    debian 10 buster 安装配置 es 和 中文, 拼音分词 安装 测试 配置 分词 IK 分词器 拼音分词 一个完整的动态映射模板(包含geo, pinyin, IK) 安装 1, 安装j ...

  5. elastic ik分词搜索_php环境下使用elasticSearch+ik分词器进行全文搜索

    php中文网最新课程 每日17点准时技术干货分享 首先需要说明的一点是,如果需要启用ik分词器,那么分词器的版本必须与es版本一致,即6.3.0的分词器需要同样6.3.0版本的es支持. 安装java ...

  6. Elasticsearch(二) ik分词器的安装 以及 自定义分词

    ik分词器作为elasticsearch的一个插件,则是安装在es插件中. ik分词器的安装 1,创建ik分词目录上传与es相同版本的ik分词器插件,不同版本可能es启动 报错 在elasticsea ...

  7. solr(二):Solr配置中文分词器IKAnalyzer2012FF_u1

    一.目的 通过使用比较高效的IKAnalyzer2012FF_u1分词器对中文内容进行检索分词,利于最终的全文检索. 二.环境 1.CentOS6.4 2.CDH5.7.0 3.solr-4.10.3 ...

  8. Elasticsearch - 文档分析,IK分词器;文档冲突(十二)

    阅读本文前可先参考 Elasticsearch - Elasticsearch详解:安装部署(一)_MinggeQingchun的博客-CSDN博客 https://blog.csdn.net/Min ...

  9. [Linux]Linux下安装和配置solr/tomcat/IK分词器 详细实例二.

    为了更好的排版, 所以将IK分词器的安装重启了一篇博文,  大家可以接上solr的安装一同查看. [Linux]Linux下安装和配置solr/tomcat/IK分词器 详细实例一: http://w ...

最新文章

  1. ENJOYLink欢联,以独创技术满足数据中心布线
  2. java8学习:用流收集数据
  3. git pull问题“error: Your local changes to the following files would be overwritten by merge”解决方案
  4. 3_电子商务开发模型与java的关系_计算机网络与软件工程专业作业答案
  5. Android Open Accessory (AOA)
  6. java nio 文件_Java nio 的文件处理
  7. P5643-[PKUWC2018]随机游走【min-max容斥,dp】
  8. vm虚拟机安装_虚拟机 --- 安装VM(一)
  9. 训练日志 2019.1.26
  10. 银行对公业务结构图梳理
  11. 无法打开预编译头文件的解决方法及预编译头原理[ZZ] 转
  12. 测试游戏平均帧率的软件,游戏帧数,游戏帧数测试软件
  13. bulk insert java_从JAVA插入SQL Server时,我可以获得“BULK INSERT”般的速度吗?
  14. 百度云API怎么使用
  15. 如何获取股票数据接口?
  16. 2017年电力职称计算机考试题,2017年职称计算机考试Excel试题(1)
  17. 【Mac】 自带的播放器quicktimeplayer 如何带声音2倍速播放
  18. 人生十个阶段,每七年周期变化
  19. 理解Golang中的[]interface{}和interface{}
  20. JavaEE学习记录Day08、09、10

热门文章

  1. 一、PostgreSQL软件安装
  2. java aop面试_我想知道Spring在面试中应该怎么介绍,以及如何介绍他的aop?
  3. 基于opencv3.0和zbar下条形码和二维码的识别与解码
  4. 树莓派 raspbian 系统常用命令
  5. Oracle中添加删除主键的方法(转)
  6. 香港个人银行开户会问什么问题,怎么回答?
  7. marquee参数详解
  8. 苏亚星显示没有登录的服务器,VOD直播工具使用 直播站管理工具的使用 苏亚星VOD点播(直播)系统.doc...
  9. android网络优化,Android性能优化----网络优化
  10. 正能量励志歌曲十大榜单盘点