Solr8.0速成系列 | Solr整合IKAnalyzer分词器 05
Solr默认不支持中文分词,我们可以配置Solr自带的中文分词或者IK分词
ikAnalyzer分词
1、先下载solr对应版本的ik分词器,下载地址:
https://search.maven.org/search?q=com.github.magese
分词器GitHub源码地址:https://github.com/magese/ik-analyzer-solr7
2.将下载好的jar包放入solr-7.4.0/server/solr-webapp/webapp/WEB-INF/lib目录中
3.将resources目录下的5个配置文件放入solr服务的Jetty或Tomcat的webapp/WEB-INF/classes/目录下;(如果无classes新建一个)
IKAnalyzer.cfg.xml、 ext.dic、 stopword.dic、 ik.conf、 dynamicdic.txt
注意修改文件stopword.dic,ext.dic的编码方式为无BOM的UTF-8编码方式
至此IK扩充词典配置完成,需要注意几点:
1)词典文件必须是UTF-8无BOM格式的,否则配置了,词典也不会生效。
2)项目编码是UTF-8,在Properties中设置。
3)IKAnalyzer.cfg.xml和词典路径问题。词典路径可以随意放,但是IkAnalyzer.cfg.xml必须放在src根目录下。补充一句配置词典路径的时候,路径中com前不要加“/”,否则找不到词典。
4)若中途修改了词典,需要重新刷新下项目,修改的词典才能生效。
4.server/solr/coreXX/conf目录中打开managed-schema文件,增加如下代码
<!-- ik分词器 -->
<fieldType name="text_ik" class="solr.TextField"><analyzer type="index"><tokenizer class="org.wltea.analyzer.lucene.IKTokenizerFactory" useSmart="false" conf="ik.conf"/><filter class="solr.LowerCaseFilterFactory"/></analyzer><analyzer type="query"><tokenizer class="org.wltea.analyzer.lucene.IKTokenizerFactory" useSmart="true" conf="ik.conf"/><filter class="solr.LowerCaseFilterFactory"/></analyzer>
</fieldType>
分词演示
效果:如 对“我是架构师速成记”分词
4)IKAnalyzer.cfg.xml 是配置扩展词库的配置文件,可以看一下里面的代码如下:
<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
<properties> <comment>IK Analyzer 扩展配置</comment><!--用户可以在这里配置自己的扩展字典 --><entry key="ext_dict">ext.dic;</entry> <!--用户可以在这里配置自己的扩展停止词字典--><entry key="ext_stopwords">stopword.dic;</entry>
</properties>
可以写多个扩展词库,只要用 ; 分隔即可
ext.dic添加扩展词 成记 是架
未添加扩展词之前:
添加扩展词之后:
solr自带分词中文分词器
因为自带的分词效果以及扩展性不是很好,我们这就暂时不采用这种了
1、复制jar包
cp contrib/analysis-extras/lucene-libs/lucene-analyzers-smartcn-7.4.0.jar server/solr-webapp/webapp/WEB-INF/lib
2.配置
<fieldType name="text_cn" class="solr.TextField" positionIncrementGap="100"><analyzer type="index"><tokenizer class="org.apache.lucene.analysis.cn.smart.HMMChineseTokenizerFactory"/></analyzer><analyzer type="query"><tokenizer class="org.apache.lucene.analysis.cn.smart.HMMChineseTokenizerFactory"/></analyzer></fieldType>
End
希望大家初步掌握中文分词,有问题可及时反馈
Solr8.0速成系列 | Solr整合IKAnalyzer分词器 05相关推荐
- IK-Analyzer 分词器 solr
网上找的IK-Analyzer分词器 方便后来人用和下载 https://www.oschina.net/news/11853/ikanalyzer-3-2-5-stable-for-lucene-3 ...
- 给solr配置中文分词器
Solr的中文分词器 中文分词在solr里面是没有默认开启的,需要我们自己配置一个中文分词器. 目前可用的分词器有smartcn,IK,Jeasy,庖丁.其实主要是两种,一种是基于中科院ICTCLAS ...
- word分词器、ansj分词器、mmseg4j分词器、ik-analyzer分词器分词效果评估(转)
转自:http://yangshangchuan.iteye.com/blog/2056537(有代码可下载) word分词器.ansj分词器.mmseg4j分词器.ik-analyzer分词器分词效 ...
- word分词器、ansj分词器、mmseg4j分词器、ik-analyzer分词器分词效果评估
2019独角兽企业重金招聘Python工程师标准>>> word分词是一个Java实现的中文分词组件,提供了多种基于词典的分词算法,并利用ngram模型来消除歧义. 能准确识别英文. ...
- 单机版Solr的中文分词器solr IK下载和配置、拓展词典、停用词典
下载ik分词器 solr IK中文分词器下载地址 github地址下载(最新版本): https://github.com/magese/ik-analyzer-solr solr7版本的ik分词器: ...
- [Linux]Linux下安装和配置solr/tomcat/IK分词器 详细实例二.
为了更好的排版, 所以将IK分词器的安装重启了一篇博文, 大家可以接上solr的安装一同查看. [Linux]Linux下安装和配置solr/tomcat/IK分词器 详细实例一: http://w ...
- Linux下安装和配置solr/tomcat/IK分词器 详细实例二.
为了更好的排版, 所以将IK分词器的安装重启了一篇博文, 大家可以接上solr的安装一同查看. [Linux]Linux下安装和配置solr/tomcat/IK分词器 详细实例一: http://w ...
- solr配置中文分词器
solr配置中文分词器 配置IK分词器 可配置停用词.扩展词.同义词
- solr(二):Solr配置中文分词器IKAnalyzer2012FF_u1
一.目的 通过使用比较高效的IKAnalyzer2012FF_u1分词器对中文内容进行检索分词,利于最终的全文检索. 二.环境 1.CentOS6.4 2.CDH5.7.0 3.solr-4.10.3 ...
- Solr配置IK分词器
配置步骤 下载分词器 上传文件 添加jar包 添加配置文件 添加分词器,配置业务域 测试分词器 第一步 下载IK分词器 第二步 上传文件 查看 第三步 添加jar包 到solr工程 cp IKAnal ...
最新文章
- vbs枚举磁盘访问磁盘信息
- 看了这一篇,就不用看别的——Java中Object关于锁的的三个方法:wait,notify,notifyAll的作用
- android com.squareup,android – 无法导入com.squareup.okhttp.OkHttpClient;
- counting sort (计数排序) algorithm
- java数组实现队列_使用数组在Java中进行队列实现
- JAVA中dot的用法_Java 方法
- Android Android.mk脚本结构
- tomcat下载以及各个版本(zip,tar.gz,32-bit Windows zip,64-bit Windows zip,32-bit/64-bit Windows Service Instal
- Linux编程:获取时间戳
- Windows的cmd中如何关闭端口
- 自建网易云音乐解锁代理
- android 钛备份,钛备份使用教程
- Visual C++ 2008入门经典 Ivor Horton
- eBPF-4-perf_map的丢失事件lost_event解读
- 前端面试题整理汇总(一)
- 数字证书在web应用中实现登陆
- Metasploit的简单应用
- 显卡驱动版本和cuda版本对应
- python编程题6-抓狐狸小游戏
- 国内外的一些安全网站收集