两个中文分词插件,一个是ik的,一个是mmseg的,下面分别介绍下两者的用法,其实都差不多的,先安装插件,命令行:
安装ik插件:

plugin -install medcl/elasticsearch-analysis-ik/1.1.0

下载ik相关配置词典文件到config目录

cd config wget http://github.com/downloads/medcl/elasticsearch-analysis-ik/ik.zip --no-check-certificate unzip ik.zip rm ik.zip

安装mmseg插件:

bin/plugin -install medcl/elasticsearch-analysis-mmseg/1.1.0 

下载相关配置词典文件到config目录

cd config wget http://github.com/downloads/medcl/elasticsearch-analysis-mmseg/mmseg.zip --no-check-certificate unzip mmseg.zip rm mmseg.zip 

分词配置

ik分词配置,在elasticsearch.yml文件中加上

index:   analysis:                        analyzer:             ik:           alias: [ik_analyzer]           type: org.elasticsearch.index.analysis.IkAnalyzerProvider

index.analysis.analyzer.ik.type : “ik”

这两句的意义相同
mmseg分词配置,也是在在elasticsearch.yml文件中

index:   analysis:     analyzer:       mmseg:           alias: [news_analyzer, mmseg_analyzer]           type: org.elasticsearch.index.analysis.MMsegAnalyzerProvider 

index.analysis.analyzer.default.type : "mmseg" 

mmseg分词还有些更加个性化的参数设置如下

index:   analysis:     tokenizer:       mmseg_maxword:           type: mmseg           seg_type: "max_word"       mmseg_complex:           type: mmseg           seg_type: "complex"       mmseg_simple:           type: mmseg           seg_type: "simple" 

这样配置完后插件安装完成,启动es就会加载插件。

定义mapping

在添加索引的mapping时就可以这样定义分词器

{    "page":{       "properties":{          "title":{             "type":"string",             "indexAnalyzer":"ik",             "searchAnalyzer":"ik"          },          "content":{             "type":"string",             "indexAnalyzer":"ik",             "searchAnalyzer":"ik"          }       }    } }

indexAnalyzer为索引时使用的分词器,searchAnalyzer为搜索时使用的分词器。

java mapping代码如下:

XContentBuilder content = XContentFactory.jsonBuilder().startObject()         .startObject("page")           .startObject("properties")                    .startObject("title")               .field("type", "string")                          .field("indexAnalyzer", "ik")               .field("searchAnalyzer", "ik")             .endObject()              .startObject("code")               .field("type", "string")                        .field("indexAnalyzer", "ik")               .field("searchAnalyzer", "ik")             .endObject()                .endObject()          .endObject()        .endObject()

定义完后操作索引就会以指定的分词器来进行分词。

附:

ik分词插件项目地址:https://github.com/medcl/elasticsearch-analysis-ik

mmseg分词插件项目地址:https://github.com/medcl/elasticsearch-analysis-mmseg

如果觉得配置麻烦,也可以下载个配置好的es版本,地址如下:https://github.com/medcl/elasticsearch-rtf

转载于:https://blog.51cto.com/feelmanc/1250425

elasticsearch中文分词相关推荐

  1. php elasticsearch ik,elasticsearch 中文分词(elasticsearch-analysis-ik)安装

    elasticsearch 中文分词(elasticsearch-analysis-ik)安装 在elasticsearch的plugins目录下,创建ik目录 cd /usr/local/elast ...

  2. 本地elasticsearch中文分词器 ik分词器安装及使用

    ElasticSearch 内置了分词器,如标准分词器.简单分词器.空白词器等.但这些分词器对我们最常使用的中文并不友好,不能按我们的语言习惯进行分词. ik分词器就是一个标准的中文分词器.它可以根据 ...

  3. elasticsearch中文分词器ik-analyzer安装

    前面我们介绍了Centos安装elasticsearch 6.4.2 教程,elasticsearch内置的分词器对中文不友好,只会一个字一个字的分,无法形成词语,别急,已经有大拿把中文分词器做好了, ...

  4. 怎么配置linux中es搜索的主机名,分布式搜索elasticsearch中文分词集成

    elasticsearch官方只提供smartcn这个中文分词插件,效果不是很好,好在国内有medcl大神(国内最早研究es的人之一)写的两个中文分词插件,一个是ik的,一个是mmseg的,下面分别介 ...

  5. datetimepicker中文不生效_搜索引擎技术(二十)- elasticsearch - 中文分词器

    步骤1:分词器概念 步骤2:安装中文分词器步骤3:重启 ElasticSearch步骤4:测试中文分词效果 步骤 1 : 分词器概念 分词器指的是搜索引擎如何使用关键字进行匹配,如 入门 中的关键字: ...

  6. ElasticSearch中文分词,看这一篇就够了

    写在前面:我是「且听风吟」,目前是某上市游戏公司的大数据开发工程师,热爱大数据开源技术,喜欢分享自己的所学所悟,现阶段正在从头梳理大数据体系的知识,以后将会把时间重点放在Spark和Flink上面. ...

  7. ElasticSearch 中文分词器ik的安装、测试、使用、自定义词库、热更新词库

    文章目录 # 实验环境 # ik分词器的下载.安装.测试 ## 安装方法一:使用elasticsearch-plugin 安装 ## 安装方法二:下载编译好的包进行安装 1.下载 2.安装 3.重启` ...

  8. 分布式搜索elasticsearch中文分词集成

    elasticsearch官方只提供smartcn这个中文分词插件,效果不是很好,好在国内有medcl大神(国内最早研究es的人之一)写的两个中文分词插件,一个是ik的,一个是mmseg的,下面分别介 ...

  9. ElasticSearch中文分词和模糊查询

    前言 ElasticSearch是一个一个分布式的实时文档存储,每一个字段都可以被索引与搜索,并且能支持PB级别的结构化或者非结构化数据.早期我们应用的全局搜索是简单的SQL模糊查询,为了分担数据库压 ...

  10. ElasticSearch中文分词器-IK分词器的使用

    IK分词器的使用 首先我们通过Postman发送GET请求查询分词效果 GET http://localhost:9200/_analyze {"text":"农业银行& ...

最新文章

  1. zookeeper 启动显示started,jps查看进程却没有,解决方法
  2. Chrome OS 0.4.220 Beta下载已发布
  3. mysql 客服_MySQL
  4. browserquest php安装,请问一下browserquest-php项目换成GatewayWorker的形式需要怎么部署worker...
  5. 动脑2017android_您肯定要在2017年初尝试的25个新Android库
  6. 0宽字符加密_一文看懂异或加密,有动画演示呦
  7. 2.5D屏幕有什么好处?
  8. android画布_Android画布
  9. java manager 模式_java设计模式之装饰器模式(Decorator)
  10. ffmpeg time_base详解
  11. 数据库习题(填空题一)
  12. 安装虚拟机不支持i686 cpu的解决办法
  13. Kotlin 密封类
  14. 覆了天下也罢,始终不过一场繁华
  15. 用户细分概念辨析——用户分群与用户分层
  16. swper_Swiper 中文API手册(share)
  17. 聊天气泡图片的动态拉伸、适配与镜像
  18. 查找相交链表相交节点
  19. linux 命令总结大全
  20. Bearer ${Token},放置在HTTP头中发送

热门文章

  1. 模板题——贪心(1)
  2. IDL编程实现拟合树的圆心代码
  3. 实习成长:logback收集项目日志,实现日志告警机器人
  4. 走心!15年程序员老兵的40条编程技巧,先收藏了!
  5. 从Android转大前端半年,我的一些思考
  6. linux vsftp 无法上传文件,解决vsftp 不能匿名上传文件的问题
  7. linux导入通达oa数据库,将通达OA迁移到linux平台
  8. 的不定积分_不定积分大集合——方法篇
  9. python opencv光流跟踪_Opencv Python版学习笔记(四)光流跟踪之Gunnar Farneback’s 算法...
  10. 全自动高清录播服务器,全自动高清录播服务器 高清录播系统 一体化操作;易使用 操作简便...