Solr默认不支持中文分词,我们可以配置Solr自带的中文分词或者IK分词

ikAnalyzer分词

1、先下载solr对应版本的ik分词器,下载地址:

https://search.maven.org/search?q=com.github.magese

分词器GitHub源码地址:https://github.com/magese/ik-analyzer-solr7

2.将下载好的jar包放入solr-7.4.0/server/solr-webapp/webapp/WEB-INF/lib目录中

3.将resources目录下的5个配置文件放入solr服务的Jetty或Tomcat的webapp/WEB-INF/classes/目录下;(如果无classes新建一个)

IKAnalyzer.cfg.xml、 ext.dic、 stopword.dic、 ik.conf、 dynamicdic.txt

注意修改文件stopword.dic,ext.dic的编码方式为无BOM的UTF-8编码方式

至此IK扩充词典配置完成,需要注意几点:

1)词典文件必须是UTF-8无BOM格式的,否则配置了,词典也不会生效。

2)项目编码是UTF-8,在Properties中设置。

3)IKAnalyzer.cfg.xml和词典路径问题。词典路径可以随意放,但是IkAnalyzer.cfg.xml必须放在src根目录下。补充一句配置词典路径的时候,路径中com前不要加“/”,否则找不到词典。

4)若中途修改了词典,需要重新刷新下项目,修改的词典才能生效。

4.server/solr/coreXX/conf目录中打开managed-schema文件,增加如下代码

<!-- ik分词器 -->
<fieldType name="text_ik" class="solr.TextField"><analyzer type="index"><tokenizer class="org.wltea.analyzer.lucene.IKTokenizerFactory" useSmart="false" conf="ik.conf"/><filter class="solr.LowerCaseFilterFactory"/></analyzer><analyzer type="query"><tokenizer class="org.wltea.analyzer.lucene.IKTokenizerFactory" useSmart="true" conf="ik.conf"/><filter class="solr.LowerCaseFilterFactory"/></analyzer>
</fieldType>

分词演示

效果:如 对“我是架构师速成记”分词

4)IKAnalyzer.cfg.xml 是配置扩展词库的配置文件,可以看一下里面的代码如下:

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
<properties>  <comment>IK Analyzer 扩展配置</comment><!--用户可以在这里配置自己的扩展字典 --><entry key="ext_dict">ext.dic;</entry> <!--用户可以在这里配置自己的扩展停止词字典--><entry key="ext_stopwords">stopword.dic;</entry>
</properties>

可以写多个扩展词库,只要用 ; 分隔即可

ext.dic添加扩展词  成记  是架

未添加扩展词之前:

添加扩展词之后:

solr自带分词中文分词器

因为自带的分词效果以及扩展性不是很好,我们这就暂时不采用这种了

1、复制jar包

cp contrib/analysis-extras/lucene-libs/lucene-analyzers-smartcn-7.4.0.jar  server/solr-webapp/webapp/WEB-INF/lib

2.配置

<fieldType name="text_cn" class="solr.TextField" positionIncrementGap="100"><analyzer type="index"><tokenizer class="org.apache.lucene.analysis.cn.smart.HMMChineseTokenizerFactory"/></analyzer><analyzer type="query"><tokenizer class="org.apache.lucene.analysis.cn.smart.HMMChineseTokenizerFactory"/></analyzer></fieldType>

End
希望大家初步掌握中文分词,有问题可及时反馈

Solr8.0速成系列 | Solr整合IKAnalyzer分词器 05相关推荐

  1. IK-Analyzer 分词器 solr

    网上找的IK-Analyzer分词器 方便后来人用和下载 https://www.oschina.net/news/11853/ikanalyzer-3-2-5-stable-for-lucene-3 ...

  2. 给solr配置中文分词器

    Solr的中文分词器 中文分词在solr里面是没有默认开启的,需要我们自己配置一个中文分词器. 目前可用的分词器有smartcn,IK,Jeasy,庖丁.其实主要是两种,一种是基于中科院ICTCLAS ...

  3. word分词器、ansj分词器、mmseg4j分词器、ik-analyzer分词器分词效果评估(转)

    转自:http://yangshangchuan.iteye.com/blog/2056537(有代码可下载) word分词器.ansj分词器.mmseg4j分词器.ik-analyzer分词器分词效 ...

  4. word分词器、ansj分词器、mmseg4j分词器、ik-analyzer分词器分词效果评估

    2019独角兽企业重金招聘Python工程师标准>>> word分词是一个Java实现的中文分词组件,提供了多种基于词典的分词算法,并利用ngram模型来消除歧义. 能准确识别英文. ...

  5. 单机版Solr的中文分词器solr IK下载和配置、拓展词典、停用词典

    下载ik分词器 solr IK中文分词器下载地址 github地址下载(最新版本): https://github.com/magese/ik-analyzer-solr solr7版本的ik分词器: ...

  6. [Linux]Linux下安装和配置solr/tomcat/IK分词器 详细实例二.

    为了更好的排版, 所以将IK分词器的安装重启了一篇博文,  大家可以接上solr的安装一同查看. [Linux]Linux下安装和配置solr/tomcat/IK分词器 详细实例一: http://w ...

  7. Linux下安装和配置solr/tomcat/IK分词器 详细实例二.

    为了更好的排版, 所以将IK分词器的安装重启了一篇博文,  大家可以接上solr的安装一同查看. [Linux]Linux下安装和配置solr/tomcat/IK分词器 详细实例一: http://w ...

  8. solr配置中文分词器

    solr配置中文分词器 配置IK分词器 可配置停用词.扩展词.同义词

  9. solr(二):Solr配置中文分词器IKAnalyzer2012FF_u1

    一.目的 通过使用比较高效的IKAnalyzer2012FF_u1分词器对中文内容进行检索分词,利于最终的全文检索. 二.环境 1.CentOS6.4 2.CDH5.7.0 3.solr-4.10.3 ...

  10. Solr配置IK分词器

    配置步骤 下载分词器 上传文件 添加jar包 添加配置文件 添加分词器,配置业务域 测试分词器 第一步 下载IK分词器 第二步 上传文件 查看 第三步 添加jar包 到solr工程 cp IKAnal ...

最新文章

  1. vbs枚举磁盘访问磁盘信息
  2. 看了这一篇,就不用看别的——Java中Object关于锁的的三个方法:wait,notify,notifyAll的作用
  3. android com.squareup,android – 无法导入com.squareup.okhttp.OkHttpClient;
  4. counting sort (计数排序) algorithm
  5. java数组实现队列_使用数组在Java中进行队列实现
  6. JAVA中dot的用法_Java 方法
  7. Android Android.mk脚本结构
  8. tomcat下载以及各个版本(zip,tar.gz,32-bit Windows zip,64-bit Windows zip,32-bit/64-bit Windows Service Instal
  9. Linux编程:获取时间戳
  10. Windows的cmd中如何关闭端口
  11. 自建网易云音乐解锁代理
  12. android 钛备份,钛备份使用教程
  13. Visual C++ 2008入门经典 Ivor Horton
  14. eBPF-4-perf_map的丢失事件lost_event解读
  15. 前端面试题整理汇总(一)
  16. 数字证书在web应用中实现登陆
  17. Metasploit的简单应用
  18. 显卡驱动版本和cuda版本对应
  19. python编程题6-抓狐狸小游戏
  20. 国内外的一些安全网站收集

热门文章

  1. Python学习教程公开课:好玩的Python
  2. 2011端午节搞笑短信大全
  3. 2018的趋势与展望(上)——记罗振宇“时间的朋友2017”跨年演讲
  4. leetcode499 迷宫III
  5. 建筑灭火器配置设计规范
  6. 文化传媒婚纱摄影类网站织梦模板免费下载
  7. java int的取值范围为什么负数比正数多1
  8. 2017年中国智能卡行业发展现状分析及市场发展前景预测
  9. VS2013中添加现有窗体项
  10. iptables查看、添加、删除规则