Elasticsearch 中文搜索时遇到几个问题:

1、当搜索关键词如:“人民币”时,如果分词将“人民币”分成“人”,“民”,“币”三个单字,那么搜索该关键词会匹配到很多包含该单字的无关内容,但是如果将该词分词成一个整词“人民币”,搜索单字如“人”字又不会匹配到包含“人民币”关键词的内容,怎么解决这个问题,既保证覆盖度又保证准确度?

2、搜索“RMB”时只会匹配到包含“RMB”关键词的内容,实际上,“RMB”和“人民币”是同义词,我们希望用户搜索“RMB”和“人民币”可以相互匹配,ES同义词怎么配置?

接下来从以下几点讲一下怎么ES中文分词

  1. 中文分词器
  2. ES 分词流程之 analysis,analyzer,filter,tokenizer
  3. ES内置分词器
  4. 自定义analyzer
  5. ES同义词功能实现

1.IK 分词器

  • 1,Elasticsearch中文分词我们采用Ik分词,ik有两种分词模式,ik_max_word,和ik_smart模式;

    • ik_max_word 和 ik_smart 什么区别?

ik_max_word: 会将文本做最细粒度的拆分,比如会将“中华人民共和国国歌”拆分为“中华人民共和国,中华人民,中华,华人,人民共和国,人民,人,民,共和国,共和,和,国国,国歌”,会穷尽各种可能的组合;
ik_smart: 会做最粗粒度的拆分,比如会将“中华人民共和国国歌”拆分为“中华人民共和国,国歌”。

索引时,为了提供索引的覆盖范围,通常会采用ik_max_word分析器,会以最细粒度分词索引,搜索时为了提高搜索准确度,会采用ik_smart分析器,会以粗粒度分词
字段mapping设置如下:

    "author": {"type": "string","analyzer": "ik","search_analyzer": "ik_smart"}

2.Elasticsearch之分析(analysis)和分析器(analyzer)

analysis索引分析模块充当analyzer分析器的可配置注册表,通过analyzer对文档索引阶段的字段和搜索String进行处理,自定义analyzer时,通常需要character filter tokenizer token filters来完成

2.1 character filter 字符过滤器

首先字符串经过过滤器(character filter),他们的工作是在分词前处理字符串。字符过滤器能够去除HTML标记,例如把“<a>”变成“a

2.2 tokenizer 分词器

英文分词可以根据空格将单词分开,中文分词比较复杂,可以采用机器学习算法来分词

2.2 token filters 表征过滤器

最后,每个词都通过所有表征过滤(token filters),他可以修改词(例如将“Quick”转为小写),去掉词(例如停用词像“a”、“and”、“the”等等),或者增加词(例如同义词像“a”、“and”、“the”等等)或者增加词(例如同义词像“jump”和“leap”)。

2.3 ES分词流程

character filter-->>tokenizer-->>token filters

2.5 自定义analyzer

官网example:

index :analysis :analyzer :myAnalyzer2 :type : customtokenizer : myTokenizer1filter : [myTokenFilter1, myTokenFilter2]char_filter : [my_html]position_increment_gap: 256tokenizer :myTokenizer1 :type : standardmax_token_length : 900filter :myTokenFilter1 :type : stopstopwords : [stop1, stop2, stop3, stop4]myTokenFilter2 :type : lengthmin : 0max : 2000char_filter :my_html :type : html_stripescaped_tags : [xxx, yyy]read_ahead : 1024

2.6 分词mapping设置

通常为了保证索引时覆盖度和搜索时准确度,索引分词器采用ik_max_word,搜索分析器采用ik_smart模式

"content": {"type": "string","analyzer": "ik_max_word","search_analyzer": "ik_smart"}

1.7 如果更改了mapping分词器,需要重新索引数据才能生效

POST /_reindex
{"source": {"index": "twitter"},"dest": {"index": "new_twitter"}
}

因为倒排索引中的数据是索引时由分词器来处理的,如果分词器有变化,那么搜索时query关键词即使和doc中关键词相同,但是因为分词器的原因,分出来的词会出现不匹配的情况,因此当mapping或者分词器字典同义词词典等发生变化时,需要reindex索引数据

 

1.8 更改别名,不重启服务切换索引

POST /_aliases{  "actions": [  {  "remove": {  "index": "oldindex",  "alias": "alias_oldindex"  }  },  {  "add": {  "index": "newindex",  "alias": "alias_oldindex"  }  }  ]
}

2 同义词

2.1 建议同义词词典

  • elasticsearch /config/analysis 下建议同义词词典文件pro_synonym.txt,采用UTF-8编码,写入内容
  • 同义词内容格式 ,注意标点符号使用英文符号
    • 启航 => 起航 : "=>"左边的词全部会被右边的词替换
    • 启航,起航 :使用","英文逗号分隔,两个词是互等的,分词时会同时分成两个词进行索引或者检索,如"启航"会被分成"启航","起航"两个词分别建立索引或者去倒排索引检索

自定义添加同义词通过ik分词器

"settings": {"analysis": {"filter": {"my_synonym_filter": {"type": "synonym","synonyms_path": "analysis/pro_synonym.txt"}},"analyzer": {"ik_syno_max_word": {"tokenizer": "ik","filter": "my_synonym_filter"},"ik_syno_smart": {"tokenizer": "ik_smart","filter": "my_synonym_filter"}}}}

想查看同义词效果或者测试分词效果

 

3 Suggest分词

suggest词需要对拼音前缀,全拼,中文进行前缀匹配,例如:“百度”一词,键入"baidu","bd","百"都必须匹配到,因此在索引的时候需要一词分多个分词器来索引保存,中文采用单字分词,拼音首字母和全拼需要自定义analyzer来索引。

  • Elasticsearch Suggest setting mapping设置参考如下
{"mappings": {"suggest": {"properties": {"full_pinyin": {"type": "completion","analyzer": "full_pinyin_analyzer","payloads": true,"preserve_separators": false,"preserve_position_increments": true,"max_input_length": 50},"prefix_pinyin": {"type": "completion","analyzer": "prefix_pinyin_analyzer","search_analyzer": "standard","payloads": true,"preserve_separators": false,"preserve_position_increments": true,"max_input_length": 50},"suggestText": {"type": "completion","analyzer": "standard","payloads": true,"preserve_separators": false,"preserve_position_increments": true,"max_input_length": 50}}}},"settings": {"index": {"analysis": {"filter": {"_pattern": {"type": "pattern_capture","preserve_original": "1","patterns": ["([0-9])", "([a-z])"]},"full_pinyin": {"keep_first_letter": "false","keep_none_chinese_in_first_letter": "false","type": "pinyin","keep_original": "false","keep_full_pinyin": "true"},"prefix_pinyin": {"keep_first_letter": "true","none_chinese_pinyin_tokenize": "false","type": "pinyin","keep_original": "false","keep_full_pinyin": "false"}},"analyzer": {"full_pinyin_analyzer": {"filter": ["lowercase", "full_pinyin"],"tokenizer": "standard"},"prefix_pinyin_analyzer": {"filter": ["lowercase", "prefix_pinyin"],"tokenizer": "standard"}}}}}
}

关于搜索关键词会将不相关词搜索出来

  • 解决单字搜索的一种方案

    • 问题:搜索时,搜索牙膏,需检索出包含“牙膏”二字的内容,过滤掉包含“牙”或者“膏”的内容,但是搜索单字“牙”或者“膏”时需要将牙膏匹配出来
    • 方案:加入单字字典,ik_max_word分词时,会把所有形式分出来,因此单字字典,此分词模式下会将单字索引起来,ik_smart会按照最粗粒度分词,搜索关键词时不会匹配单字内容
    • 索引和搜索采用不同分词器 "analyzer": "ik", "search_analyzer": "ik_smart"
    • 过程:更改mapping,searchAnalyzer=ik_smart

elasticsearch 的分词相关推荐

  1. php elasticsearch ik,elasticsearch 中文分词(elasticsearch-analysis-ik)安装

    elasticsearch 中文分词(elasticsearch-analysis-ik)安装 在elasticsearch的plugins目录下,创建ik目录 cd /usr/local/elast ...

  2. Elasticsearch之分词器的工作流程

    前提 什么是倒排索引? Elasticsearch之分词器的作用 Elasticsearch的分词器的一般工作流程: 1.切分关键词 2.去除停用词 3.对于英文单词,把所有字母转为小写(搜索时不区分 ...

  3. ElasticSearch IK 分词器快速上手

    简介: ElasticSearch IK 分词器快速上手 一.安装 IK 分词器 1.分配伪终端 我的 ElasticSearch 是使用 Docker 安装的,所以先给容器分配一个伪终端.之后就可以 ...

  4. 【Es】ElasticSearch 自定义分词器

    1.分词器 转载:https://blog.csdn.net/gwd1154978352/article/details/83343933 分词器首先看文章:[Elasticsearch]Elasti ...

  5. ElasticSearch中文分词,看这一篇就够了

    写在前面:我是「且听风吟」,目前是某上市游戏公司的大数据开发工程师,热爱大数据开源技术,喜欢分享自己的所学所悟,现阶段正在从头梳理大数据体系的知识,以后将会把时间重点放在Spark和Flink上面. ...

  6. Elasticsearch之分词器查询分词效果

    0.引言 Elasticsearch之分词器中文的我们一般使用IK,如果没有指定分词器.默认使用的是standard分词. IK分词能将中文分成词组: standard分词则会将每个中文分成一个单个的 ...

  7. es拼音分词 大帅哥_elasticsearch 拼音+ik分词,spring data elasticsearch 拼音分词

    elasticsearch 自定义分词器 安装拼音分词器.ik分词器 下载源码需要使用maven打包 下载构建好的压缩包解压后放直接在elasticsearch安装目录下 plugins文件夹下,可以 ...

  8. elasticsearch 拼音分词(elasticsearch-analysis-pinyin)

    elasticsearch 拼音分词(elasticsearch-analysis-pinyin) 官网:https://github.com/medcl/elasticsearch-analysis ...

  9. ElasticSearch pinyin分词支持多音字

    ElasticSearch pinyin分词支持多音字 背景 我们有一个搜索业务底层采用ElasticSearch作为搜索引擎,在索引的过程中,使用了ik中文分词.拼音分词.同义词等多种分词器.ES和 ...

  10. [Spring Boot]12 ElasticSearch实现分词搜索功能

    目录 一.前言 二.搜索功能的需求 三.需求开发 1.服务器安装ElasticSearch和IK分词器 2.需求开发 1)pom.xml引入jar包: 2)yml增加配置 3)配置类Elasticse ...

最新文章

  1. 揭秘物联网之城无锡鸿山的科技密码
  2. SQLite的sqlite_master表
  3. linux ssh 连接错误 WARNING: REMOTE HOST IDENTIFICATION HAS CHANGED!
  4. Android dialog 全屏
  5. 关于jquery与dom元素转换
  6. Facebook:苹果谷歌支持HTML5会死啊
  7. Android学习笔记---26_网络通信之资讯客户端,使用pull解析器,解析,从网络中获得的自定义xml文件
  8. 腾讯优图升级为计算机视觉研发中心,与《科学》宣布战略合作
  9. mysql事务管理及spring声明式事务中主动异常抛出使数据库回滚
  10. 对计算机数字不敏感怎么解决,英语听力对数字不敏感的解决办法
  11. 设计模式入门进阶深入书籍汇总
  12. APP安全——反编译分析(反编译、再编译、签名)
  13. vijos 1443 月亮之眼
  14. 解析HTTP协议六种请求方法
  15. 望周知,手机维修你还担心隐私泄露嘛?华为手机一键开启维修模式
  16. C/C++宏的特殊符号
  17. 老人智能手表方案/案列/APP/小程序/网站
  18. java毕业设计手机在线销售系统mybatis+源码+调试部署+系统+数据库+lw
  19. 【转】db_domain参数设置影响dblink迁移问题
  20. 2019年研究生数学建模E题加拿大站点数据批量下载

热门文章

  1. 图的无权最短路径算法
  2. 高效解决阿里云远程桌面连接出现credssp加密oracle修正
  3. IIS或Apache部署Django项目时,Admin后台管理CSS样式丢失?
  4. php中简单模糊查询的sql语句
  5. 钩稽“及其在VE中的实现
  6. opencv 实现 Photoshop 亮度 对比度 调节功能
  7. WGS 1984地理坐标系的墨卡托投影分度带(UTM ZONE)选择方法
  8. 社区-发表评论和回复评论
  9. box2d 碰撞检测_Box2d新系列 第四章 碰撞模块
  10. 如何修改app在模拟器上的名字